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内 容 简 介 


自然 语言 处 理 (NLP) 是 计算 机 科学 、 人 工 智 能 、 语 言 学 关注 计算 机 和 人 类 《自然 ) 语言 之 间 的 相互 作 


用 的 领域 。 


自然 语言 处 理 是 机 器 学 习 的 应 用 之 一 ， 用 于 分 析 、 理 解 和 生成 自然 语言 ， 它 与 人 机 交互 有 关 ， 最 


终 实 现 人 与 计算 机 之 间 更 好 的 交流 。 

本 书 分 为 12 章 , 内 容 包 括 自然 语言 处 理 基 础 、 深 度 学 习 基础 、TensorFlow、 词 嵌入 (Word Embedding) 、 
卷 积 神经 网 络 (CNN) 与 句子 分 类 、 循 环 神经 网 络 (RNN) 、 长 短期 记忆 (LSTM) 、 利 用 LSTM 实现 图 像 
字幕 自动 生成 、 情 感 分 析 、 机 器 翻译 及 智能 问答 系统 。 
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前 言 


2018 年 ， 其 实 是 自然 语言 处 理 领 域 收获 颇 丰 的 一 年 ， 尤 其 是 以 Google 公司 在 2018 年 11 月 份 
发 布 的 BERT 模型 最 为 世人 所 瞩目 , 可 以 说 是 最 近 AI 研究 领域 最 为 火爆 的 历史 性 突破 。 最 近 几 年 ， 
无 论 从 媒体 报道 还 是 切身 感受 , 我 们 都 看 到 人 工 智能 目前 的 发 展 势头 非常 迅猛 。 如 果 我 们 简单 回顾 
一 下 人 工 智能 发 展 历程 ， 不 难 发 现 其 轨迹 有 三 个 发 展 阶段 : 第 一 个 阶段 是 计算 智能 阶段 ， 其 典型 表 
现在 于 计算 机 和 人 类 相 比 是 能 存 会 算 ， 其 超大 存储 量 、 超 高 计算 速度 方面 均 可 完胜 我 们 人 类 ; 第 二 
个 阶段 是 感知 智能 阶段 ， 具 体 表 现在 以 语音 识别 和 图 像 识别 技术 为 代表 的 迅猛 发 展 , 如 综艺 电视 节 
目 中 的 “机 智 过 人 ”“ 最 强大 脑 ”就 是 其 很 好 的 呈现 形式 ， 第 三 个 阶段 是 认 知 智能 阶段 ， 这 个 阶段 
需要 机 器 能 够 思考 并 具有 情感 。 正 因为 人 工 智 能 与 我 们 日 常生 活 的 联系 越 来 越 紧密 , 且 自 然 语言 处 
理 技术 是 推动 机 器 实现 认 知 的 关键 性 研究 领域 ,所 以 我 们 有 必要 对 自然 语言 处 理应 用 进行 深入 探索 。 
本 书 将 利用 目前 流行 的 Google 技术 框架 〈TensorFlow) 来 实现 自然 语言 处 理 方面 的 应 用 。 

由 于 我 们 生活 的 方方面面 被 赋予 了 越 来 越 多 的 数字 化 内 容 , 因此 相应 的 数据 量 也 在 呈 指 数 级 增 
长 ,并 且 大 多 数 数据 是 与 语言 相关 的 数据 ， 如 电子 邮件 、 社 交 媒 体 帖子 、 电 话 和 网 络 文章 ， 自 然 语 
言 处 理 (NaturalLanguageProcessing, NLP) 能 够 有 效 地 利用 这 些 数据 帮助 人 们 完成 日 常 业 务工 作 。 
NLP 已 经 彻底 改变 了 我 们 使 用 数据 改善 业务 和 生活 的 方式 ， 并 将 在 我 们 未 来 的 日 常生 活 中 发 挥 更 
大 的 作用 。 

NLP 最 普遍 的 使 用 案例 之 一 是 虚拟 助手 (Virtual Assistants，VA)， 如 百度 小 度 助 手 、Apple 的 
Siri、 谷 歌 助手 (Google Assistant) 和 亚马逊 Alexa。 当 我 向 VA 询问 “附近 最 便宜 的 火锅 ”时 ( 笔 
者 利用 手机 上 百度 地 图 小 度 时 ， 它 会 把 附近 最 便宜 的 火锅 店 排 在 第 一 位 )， 就 会 触发 一 系列 复杂 的 
NLP 任务 。 首 先 VA 需要 了 解 (解析 ) 我 的 请 求 (了解 它 需 要 检索 火锅 的 价格 ， 而 不 是 停车 位 计时 
的 价格 )，VA 做 出 的 决定 是 “什么 是 便宜 的 ?”; 然后 VA 需要 对 附近 火锅 的 价格 进行 排名 (也 有 
可 能 基于 我 过 去 吃 过 的 火锅 店 )， 最 后 VA 抓 取 相关 数据 获取 附近 火锅 的 价格 ， 并 通过 分 析 每 家 火 
锅 店 的 价格 和 评论 对 它们 进行 排名 。 其 实 , 我 们 在 几 秒 钟 内 看 到 的 结果 是 执行 一 系列 非常 复杂 NLP 
任务 的 结果 。 

正 是 NLP 在 我 们 日 常生 活 中 呈现 出 越 来 越 多 的 便利 性 , 笔者 才 更 想 对 NLP 背后 的 模型 原理 和 
具体 应 用 进行 深入 的 探讨 ， 以 便 我 们 对 NLP 有 更 多 的 认 知 。 另 外 ， 笔 者 查看 了 近 些 年 来 的 相关 文 
献 ， 发 现 单独 讲解 NLP 方面 的 理论 文献 国内 外 都 有 ， 单 独 撰写 NLP 任务 实现 的 技术 工具 〈 如 
TensorFlow) 的 图 书 也 很 多 ， 而 将 二 者 结合 起 来 的 图 书 ， 目 前 在 国内 还 没有 发 现 ( 也 许 有 ， 只 是 笔 
者 没有 发 现 而 已 )。 于 是 ，2018 年 4 月 ， 笔 者 就 想 对 关于 利用 TensorFlow 技术 框架 来 实现 NLP 任 
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务 应 用 方面 进行 成 体系 地 探索 ， 以 便 对 今后 的 工作 有 所 积累 。 本 书 在 创作 过 程 中 参考 了 《Natural 
Language Processing with TensorFlow) (Thushan Ganegedara 著 ) 中 的 一 些 内 容 ， 在 此 向 Thushan 
Ganegedara 表达 个 人 的 敬意 ! 

通过 阅读 本 书 ， 你 将 学 会 如 何 利用 深度 学 习 来 实现 许多 有 意义 的 NLP 任务 。 对 于 本 书 中 涉及 
的 NLP 任务 , 我 们 都 有 有 具体 的 代码 实现 ( 含 实现 过 程 ), 使 用 的 技术 框架 为 TensorFlow (1.8 版 本 )， 
编程 语言 为 Python (3.6 版 本 )。 


本 书 主要 内 容 


第 1 章 自然 语言 处 理 基础 。 首 先 介绍 自然 语言 处 理 的 含义 及 NLP 中 的 一 些 常见 子 任务 ， 然 
后 讲述 NLP 的 发 展 历程 : 偏 理论 的 理性 主义 、 偏 实践 应 用 的 经 验 主义 和 深度 学 习 阶段 ; 接着 对 NLP 
任务 中 深度 学 习 的 局 限 性 进行 了 大 致 分 析 ; 最 后 ， 我 们 对 于 NLP 的 应 用 场景 和 发 展 前 景 做 了 简要 
阐述 。 

第 2 章 深度 学 习 基础 。 首先 介绍 深度 学 习 的 概念 和 演变 过 程 , 同时 介绍 了 深度 学 习 的 基础 模 
型 一 一 神经 元 模型 ， 并 对 单 层 神经 网 络 和 多 层 神经 网 络 模型 (深度 学 习 ) 的 结构 和 原理 进行 了 深度 
解读 ;然后 介绍 Encoder-Decoder 网 络 和 深度 学 习 中 最 常见 的 优化 算法 一 一 随机 梯度 下 降 ， 最 后 介 
绍 反 向 传播 算法 (BP 算法 )。 

第 3 章 TensorFlow。 首 先 介绍 TensorFlow 的 产生 、 主 要 特征 和 相关 安装 等 基础 准备 内 容 ， 
同时 介绍 了 在 执行 TensorFlow 程序 时 需要 构建 计算 图 及 其 构成 元 素 ， 并 详细 解读 了 TensorFlow 的 
架构 和 工作 原理 ， 还 给 出 了 一 个 示例 来 加 深 理解 ， 然 后 从 TensorFlow 客户 端的 角度 通过 代码 逐 层 
剖析 TensorFlow 的 内 部 运行 情况 ， 以 便 让 我 们 对 TensorFlow 的 内 部 运行 机 制 、 各 个 基础 组 件 之 间 
的 关联 等 有 深入 的 了 解 ， 最 后 介绍 变量 作用 域 机 制 并 实现 一 个 完整 的 神经 网 络 示例 。 

第 4 章 词 嵌 入 。 首 先 介绍 分 布 式 表 示 , 对 其 含义 、 类 型 及 简要 特征 有 一 个 直观 的 认识 ; 其 次 ， 
我 们 重点 对 CBOW 模型 、Skip-gram 模型 及 GloVe 模型 的 工作 原理 和 内 部 架构 进行 深度 解析 ; 最 
后 利用 前 面 的 模型 ， 通 过 TensorFlow 实现 一 个 文档 分 类 任务 。 

第 5 章 卷 积 神经 网 络 (CNN) 与 句子 分 类 。 首 先 介 绍 CNN 的 历史 演变 过 程 ， 并 对 其 5 个 层 
级 结构 (输入 层 、 卷 积 运 算 层 、 激 励 层 、 池 化 层 、 全 连接 层 ) 和 4 个 基本 运算 单元 〈 卷 积 运算 、 池 
化 运算 、 全 连接 运算 和 识别 运算 ) 进行 了 介绍 ; 然后 介绍 几 种 常见 的 经 典 卷 积 神经 网 络 : AlexNet、 
VGGNet、Google Inception Net 和 ResNet， 并 逐一 从 模型 思想 、 结 构 、 特 性 亮点 等 方面 进行 详细 解 
读 ; 最 后 为 了 将 上 述 解 析 的 模型 思想 真正 落实 到 代码 层面 上 ， 我 们 给 出 两 个 应 用 案例 : 利用 CNN 
对 MNIST 数据 集 进行 图 片 分 类 和 利用 CNN 对 句子 进行 分 类 。 

第 6 章 循环 神经 网 络 (RNN)。 首 先 通过 计算 图 及 其 展开 解读 了 循环 的 任何 函数 本 质 上 可 以 
认为 是 一 种 循环 神经 网 络 的 说 法 ; 然后 介绍 时 间 的 反 向 传播 算法 (BPTT), 我 们 将 学 习 反 向 传播 的 
工作 原理 、 为 什么 不 能 对 RNN 使 用 标准 反 向 传播 、 如 何 使 用 BPTT 对 数据 进行 RNN 训练 、 截 断 
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BPTT 和 BPPTT 的 局 限 性 等 ， 并 解读 其 局 限 性 中 的 常见 问题 及 对 应 的 解决 方法 ; 最 后 我 们 将 看 到 
一 个 RNN 的 应 用 一 一 文本 生成 ,并 研究 了 一 种 能 够 捕获 更 长 记忆 的 RNN 变 体 (被 称 为 RNN-CF)， 
还 给 出 了 其 在 实例 中 的 应 用 。 

第 7 章 长 短期 记忆 网 络 (LSTM)。 首 先 介 绍 LSTM 及 其 高 级 架构 ， 并 深入 研究 LSTM 中 发 
生 的 详细 计算 , 结合 一 个 例子 讨论 了 该 计算 的 过 程 ; 然后 介绍 了 几 个 可 以 提高 LSTM 性 能 的 扩展 ， 
即 贪心 采样 (一 种 非常 简单 的 技术 )、 集 束 搜索 〈 一 种 更 复杂 的 搜索 技术 ) 及 BiLSTM 模型 等 ， 最 
后 介绍 了 标准 LSTM 的 两 种 变 体 : 完 视 孔 连接 和 GRU。 

第 8 章 利用 LSTM 自动 生成 文本 。 首 先 广泛 地 评估 了 LSTM 在 文本 生成 任务 中 的 表现 ， 然 
后 定性 和 定量 地 测量 LSTMS 生成 的 文本 有 多 好 ， 并 对 LSTM、 带 窗 视 孔 连 接 的 LSTM 和 GRU 进 
行 比较 ， 最 后 如 何 将 词 嵌 入 引入 模型 中 ， 以 改进 LSTM 生成 的 文本 。 

第 9 章 利用 LSTM 实现 图 像 字幕 自动 生成 。 首 先 回顾 了 图 像 字幕 的 主要 发 展 及 其 对 研究 和 
行业 部 署 的 影响 ; 其 次 详细 介绍 了 基于 深度 学 习 的 图 像 字幕 自动 生成 的 两 大 框架 ; 最 后 对 图 像 字幕 
的 自动 生成 任务 进行 了 详解 。 

第 10 章 ”情感 分 析 。 首 先 介绍 情感 分 析 的 应 用 、 情 感 问题 的 界定 及 情感 文档 的 分 类 ， 同 时 对 
句子 观点 的 主观 性 、 基 于 Aspect 的 情感 分 析 、 情 感 词典 的 生成 、 比 较 观点 分 析 及 观点 的 检索 做 了 
介绍 ; 然后 重点 阐述 了 垃圾 评论 的 各 种 情况 ， 最 后 利用 TensorFlow 对 于 酒店 评论 样本 数据 进行 了 
情感 分 析 建 模 比 较 ， 并 得 出 相关 结论 。 

第 11 章 机 器 翻译 。 首 先 对 基于 规则 的 机 器 翻译 、 统 计 机 器 翻译 等 传统 的 机 器 翻译 情况 进行 
了 详细 解释 ,并 对 基于 神经 网 络 的 神经 网 络 机 器 翻译 模型 的 架构 和 工作 机 制 进 行 了 深度 剖析 , 同时 
对 2018 年 11 月份 发 布 的 具有 重大 突破 性 的 BERT 模型 进行 了 分 析 ; 然后 介绍 如 何 实现 一 个 NMT 
系统 ;最 后 讲解 如 何 改进 标准 NMT 系统 。 

第 12 章 智能 问答 系统 。 本 章 简要 介绍 了 基于 深度 学 习 的 问答 方法 ， 特 别 是 对 知识 库 和 机 器 
理解 的 问答 。 深 度 学 习 的 优点 是 可 以 将 所 有 文本 跨度 (包括 文档 、 问 题 和 潜在 答案 ) 转换 为 向 量 嵌 
入 ， 然 而 基于 深度 学 习 的 QA 模型 存在 许多 挑战 。 例 如 ， 现 有 的 神经 网 络 (RNN 和 CNN) 仍然 不 
能 精确 地 捕获 给 定 问题 的 语义 含义 , 特别 是 对 于 文档 , 主题 或 逻辑 结构 不 能 通过 神经 网 络 容易 地 建 
模 , 并且 在 知识 库 中 嵌入 项 目 仍 然 没 有 有 效 的 方法 ,以 及 QA 中 的 推理 过 程 很 难 通过 向 量 之 间 的 简 
单数 值 运算 来 建 模 。 这 些 问 题 是 质量 保证 任务 面临 的 主要 挑战 ， 未 来 应 引起 更 多 的 关注 。 


代码 下 载 与 技术 支持 


本 书 示例 代码 下 载 地 址 请 扫描 下 面 的 二 维 码 获得 .如 果 发 现 书 中 存在 问题 或 对 本 书 有 什么 建议 ， 
请 联系 电子 邮箱 280751474@qq.com 。 


IV | TensorFlow 与 自然 语言 处 理应 用 


致谢 

笔者 在 撰写 这 样 一 本 技术 性 很 强 的 书 时 确实 有 不 少 感慨 , 但 正如 一 位 技术 界 的 前 辈 说 的 “没有 
等 出 来 的 美丽 ， 只 有 走出 来 的 辉煌 ”， 所 以 在 人 生 的 路 上 ， 能 够 让 自己 用 行动 对 冲 遗 憾 ， 足 矣 。 

在 此 , 我 要 感谢 本 书 的 每 一 位 读者 , 希望 本 书 能 够 为 大 家 带 来 一 些 启发 。 感谢 清华 大 学 出 版 社 
夏 航 疹 及 其 他 老师 的 支持 。 感 谢 周一 铁 先生 、 张 述 害 先生 的 支持 。 感 谢 我 的 朋友 和 同学 们 ， 得 益 于 
你 们 一 直 以 来 的 理解 和 支持 ， 我 才能 有 信心 完成 这 本 书 的 创作 。 

笔者 自 认 才 玻 学 浅 ， 对 深度 学 习 和 自然 语言 处 理 也 仅 是 略 知 皮毛 ， 且 因 时 间 有 限 ， 书 中 难免 有 
错 雇 之 处 ， 还 请 各 位 读者 予以 告知 ， 将 不 胜 感激 ! 


李 孟 全 
2019 年 5 月 


第 1 章 


第 2 章 


日 录 


自然 语言 处 理 基 础 
1.1 认识 自然 语言 处 理 .…… 
1.2 自然 语言 处 理 方面 的 任务 … 
1.3 ”第 一 阶段 : 偏 理论 的 理性 主义 
1.4 第 二 阶段 : 偏 实践 应 用 的 经 验 主 义 … 
1.5 第 三 阶段 : 深度 学 习 阶段 
1.6 NLP 中 深度 学 习 的 局 限 性 
1.7 NLP 的 应 用 场景 .…. 
1.8 NLP 的 发 展 前 景 .…. 


深度 学 习 基础 . 
2.1 深度 学 习 介 绍 . 
2.2 ”深度 学 习 演变 简 述 
2.2.1 深度 学 习 早 期 … 
2.2.2 ”深度 学 习 的 发 展 … 
2.2.3 深度 学 习 的 爆发 … 
2.3 ”神经 网 络 介绍 
2.4 神经 网 络 的 基本 结构 .. 
2.5 两 层 神经 网 络 〈 多 层 感 知 器 ) 
254 简 巡 二 
2.5.2 ”两 层 神经 网 络 结构 .… 
2.6 多 层 神经 网 络 ( 深 度 学 习 ) .… 
2.6.1 简 述 
2.6.2 多 层 神 经 网 络 结构 .… 
2.7 ”编码 器 -解码 器 网 络 .……………… 
2.8 ”随机 梯度 下 降 


3.1 ”TensorFlow 概念 解读 .. 


VI 


| TensorFlow 与 自然 语言 处 理应 用 


3.2 ”TensorFlow 主要 特征 . 
3.2.1 自动 求 微分 .. 
3.2.2 多 语言 支持 .. 
3.2.3 ”高 度 的 灵活 性 
3.2.4 真正 的 可 移植 性 . 
3.2.5 将 科研 和 产品 联系 在 一 起 
3.2.6 ”性 能 最 优化 .. 

3.3 TensorFlow 安装 

3.4 TensorFlow 计算 图 

3.5 TensorFlow 张 量 和 模型 会 话 … 
Sl 玉生 
3.5.2 会 话 .. 

3.6 ”TensorFlow 工作 原理 . 

3.7 ”通过 一 个 示例 来 认识 TensorFlow.… 

3.8 TensorFlow 客户 端 

3.9 TensorFlow 中 常见 元 素 解读 .……………… 
3.9.1 在 TensorFlow 中 定义 输入 
3.9.2 在 TensorFlow 中 定义 变量 .…. 
3.9.3 定义 TensorFlow 输出 
3.9.4 定义 TensorFlow 运算 或 操作 

3.10 ”变量 作用 域 机 制 … 
3.10.1 基本 原理 … 
3.10.2 通过 示例 解读 

3.11 ”实现 一 个 神经 网 络 
3.11.1 数据 准备 … 
3.11.2 定义 TensorFlow 计算 图 .. 
3.11.3 运行 神经 网 络 


4.1 ”分布 式 表示 . 
4.1.1 分 布 式 表示 的 直观 认识 . 
4.1.2 分布 式 表示 解读 . 

4.2 Word2vec 模型 (以 Skip-Gram 为 例 ) … 
4.2.1 直观 认识 Word2vec.… 
4.2.2 
4.2.3 从 原始 文本 创建 结构 化 数据 . 
4.2.4 定义 词 凤 入 层 和 神经 网 络 .… 


三 2 攻关 横 失 丙 获 ae 
4.2.7 利用 TensorFlow 实现 Skip-Gram 模型 
4.3 原始 Skip-Gram 模型 和 改进 Skip-Gram 模型 对 比分 析 .… 
4.3.1 原始 的 Skip-Gram 算法 的 实现 .. 
4.3.2 将 原始 Skip-Gram 与 改进 后 的 Skip-Gram 进行 比较 
44 CBOW 模型 
4.4.1 CBOW 模型 简 述 
4.4.2 利用 TensorFlow 实现 CBOW 算法 . 
4.5 Skip-Gramn 和 CBOW 对 比 
4.5.1 Skip-Gram 和 CBOW 模型 结构 分 析 . 
4.5.2 ”代码 层面 对 比 两 模型 性 能 
4.5.3 ”Skip-Gram 和 CBOW 模型 训 优 . 
4.6 词 嵌 入 算法 的 扩展 
4.6.1 使 用 Unigram 分 布 进行 负 采 样 . 
4.6.2 降 采 样 
4.6.3 CBOW 和 其 扩展 类 型 比较 
4.7 结构 化 Skip-Gram 和 连续 窗口 模型 . 
4.7.1 结构 化 Skip-Gram 算法 
4.7.2 连续 窗口 模型 
8 GloVe 异型 本 
2 
4.8.2 ”使 用 GloVe 模型 训练 词 向 量 


4.9.1 
4.9.2 ”使 用 词 向 量 对 文档 进行 分 类 .…. 
4.9.3 小 结 . 
4.10 总 结 .. 
卷 积 神经 网 络 与 句子 分 类 . 
5.1 认识 卷 积 神经 网 络 
5.1.1 卷 积 神经 网 络 的 历史 演变 
5.1.2 ” 卷 积 神经 网 络 结构 简 述 
5.2 输入 层 


VII 


| TensorFlow 与 自然 语言 处 理应 用 


5.3.3 ” 带 填充 的 卷 积 
5.3.4 转 置 卷 积 ……- 
5.3.5 参数 共享 机 制 … 
5.4 激活 函数 .RN 
5.4.1 常见 激活 函数 及 选择 .…. | 
5.4.2 各 个 非 线性 激活 函数 对 比分 析 . 
5.5” 池 化 层 .…... 
| 
5.5.2 ” 池 化 作用 .… 
5.5.3 最 大 池 化 … 
5.5.4 平均 池 化 .…. 


5.6 
5.7 整合 各 层 并 使 用 反 向 传播 进行 训练 
5.8 常见 经 典 卷 积 神经 网 络 … 
5.8.1 AlexNet... 
5.8.2 VGGNet.. 
5.8.3 Google Inception Net... 
5.8 Rt ed 
5.9 利用 CNN 对 MNIST 数据 集 进行 图 片 分 类 .… 
5.9.1 数据 样本 ..…. 
5.9.2 ”实现 CNN... 
5.9.3 分析 CNN 产生 的 预测 结果 .… 
5.10 利用 CNN 进行 句子 分 类 
5.10.1 CNN 结构 部 分 
5.10.2” 池 化 运算 
5.10.3 ”利用 CNN 实现 句子 分 类 . 
本 
循环 神经 网 络 ………… 
6.1 计算 图 及 其 展开 .… 


6.2.1 序列 数据 模型 
6.2.2 数学 层面 简要 解读 RNN.... 
6.3 ”通过 时 间 的 反 向 传播 算法 
6.3.1 反 向 传播 工作 原理 
6.3.2 ”直接 使 用 反 向 传播 的 局 限 性 . 
6.3.3 通过 反 向 传播 训练 RNN..… 
6.3.4 截断 BPTT 


6.5 


6.6 
6.7 
6.8 
6.9 


6.10 ”使 用 RNN-CF 生成 的 文本 


6.4.2 一 对 多 的 RNN.. 
6.4.3 多 对 一 的 RNN 
6.4.4 多 对 多 的 RNN 


6.5.1 
6.5.2 ” 随 着 时 间 的 推移 展开 截断 BPTT 的 输入 … 
6.5.3 定义 验证 数据 集 
6.5.4 定义 权重 值 和 偏差 
6.5.5 定义 状态 永久 变量 
6.5.6 使 用 展开 的 输入 计算 隐藏 状态 和 输出 .. 
6.5.7 计算 损失 
6.5.8 在 新 文本 片段 的 开头 重 置 状态 
6.5.9 ”计算 验证 输出 
6.5.10 计算 梯度 和 优化 
输出 新 生成 的 文本 片段 … 
评估 RNN 的 文本 结果 输出 . 
困惑 度 一 一 文本 生成 结果 质量 的 度量 
有 具有 上 下 文 特征 的 循环 神经 网 络 一 一 RNN-CF... 
6.9.1 RNN-CF 的 技术 说 明 ..…. 
6.9.2 ”RNN-CF 的 实现 
6.9.3 定义 RNN-CF 超 参数 
6.9.4 定义 输入 和 输出 占 位 符 .…. 
6.9.5 定义 RNN-CF 的 权重 值 

6.9.6 ”用 于 维护 隐藏 层 和 上 下 文 状态 的 变量 和 操作 
6.9.7 计算 输出 .. 
6.9.8 计算 损失 .. 
6.9.9 计算 验证 输出 … 
6.9.10 ”计算 测试 输出 .…… 
6.9.11 计算 梯度 和 优化 .. 


a 

长 短期 记忆 

7.1 LSTM 简 述 . 9 
72. LSTM 王 作 原 圣 全角 ne 192 


X | TensorFlow 与 自然 语言 处 理应 用 


第 8 章 


未 3 
7.4 
75 


7.6 


8.1 


8.5 


利用 LSTM 自动 生成 文本 


7.2.1 梯度 信息 如 何 无 损失 传递 
7.2.2 ”将 信息 装载 入 长 时 记忆 细胞 
7.2.3 更 新 细胞 状态 可 能 产生 的 问题 及 解决 方案 .… 
7.2.4 LSTM 模型 输出 
LSTM 与 标准 RNN 的 区 
LSTM 如 何 避 免 梯度 消失 和 梯度 爆炸 问题 …. 
优化 LSTM 
7.5.1 贪 禁 采样 .. 
7.5.2 ”集束 搜索 .. 
7.5.3 ”使 用 词 向 量 
7.5.4 双向 LSTM .… 
LSTM 的 其 他 变 体 .. 
7.6.1 宇 视 孔 连接 .… 
7.6.2“ 门 控 循 环 单元 … 


文本 到 文本 的 生成 .. 
8.1.1 文本 摘要 .…… 
8.1.2 ”句子 压缩 与 融合 
8.1.3 文本 复述 生成 … 
意义 到 文本 的 生成 
8.2.1 基于 深层 语法 的 文本 生成 
8.2.2 基于 同步 文法 的 文本 生成 
数据 到 文本 的 生成 
文本 自动 生成 前 的 数据 准备 … 
8.4.1 数据 集 .. 
8.4.2” 预 处 理 数 据 .…. 
实现 LSTM 
8.5.1 定义 超 参数 .… 
8 
8.5.3 
8.5.4 定义 输入 和 标签 
8.5.5 定义 处 理 序列 数据 所 需 的 序列 计算 .. 
8365 汪 半 信人 季 疾 nn 
8.5.7 随 着 时 间 的 推移 衰减 学 习 率 
8558， 进 行 预测 .ac 
8.5.9 计算 困惑 度 (损失 ) .… 


第 9 章 


8.5.10 
soi 
6.5.19 
8.5.13 示例 生成 的 文本 .. 

8.6 标准 LSTM 与 带 有 窥视 孔 连接 和 GRU 的 LSTM 的 比较 .… 
8.6.1 标准 LSTM 
8.6.2 “ 门 控 循 环 单元 … 
8.6.3 ” 带 窥 视 孔 连接 的 LSTM 
8.6.4” 随 着 时 间 的 推移 训练 和 验证 困惑 度 .. 

8.7 ”优化 LSTM 一 一 集束 搜索 
8.7.1 ”实现 集束 搜索 .………. 
8.7.2 ”使 用 集束 搜索 生成 文本 的 示例 . 

8.8 ”改进 LSTM 一 一 使 用 词 而 不 是 n-gram 生成 文本 . 
8.8.1 维度 问题 
8.8.2 完善 Word2vec 
8.8.3 使 用 Word2vec 生成 文本 
8.8.4 使 用 LSTM-Word2vec 和 集束 搜索 生成 文本 的 示例 .. 
8.8.5 困惑 度 随 着 时 间 推 移 的 变化 情况 .. 

8.9 使 用 TensorFlow RNN API.. 

WD 

利用 LSTM 实现 图 像 字幕 自动 生成 … 

9.1 简要 介绍 .…. 

9.2 ”发 展 背景 

9.3 ”利用 深度 学 习 框 架 从 图 像 中 生成 字幕 
9.3.1 End-to-End 框架 … 
9.3.2 ”组 合 框架 
9.3.3 其 他 框架 

9.4 评估 指标 和 基准 .… 

9.5 

9.6 图 像 字幕 的 产业 布局 .. 

9.7 详解 图 像 字幕 自动 生成 任务 … 
9.7.1 
9.7.2 用 于 图 像 字幕 自动 生成 的 深度 学 习 管 道 . 
9.7.3 使 用 CNN 提取 图 像 特征 
9.7.4 使 用 VGG-16 加 载 权重 值 并 进行 推理 .. 
75… 守 避 撞 朵 是 sse 
9.7.6 为 LSTM 模型 准备 字幕 数据 .…. 


XI | TensorFlow 与 自然 语言 处 理应 用 


9.8 


第 10 章 情感 分 析 .… 


10.1 
10.2 
10.3 
10.4 
10.5 
10.6 
10.7 
10.8 
10.9 


10.10 垃圾 评论 检测 … 


10: 玉 评论 的 风量 ei 
10.12 ”利用 TensorFlow 进行 中 文 情感 分 析 实 现 .…. 


10.12.8 结论 
10.13 总 结 
第 11 章 机 器 翻译 
11.1 机 器 翻译 简介 . 
11.2 ”基于 规则 的 翻译 


9.7.7 生成 LSTM 的 数据 
9.7.8 定义 LSTM 
9.7.9 定量 评估 结果 
9.7.10 为 测试 图 像 集 生 成 字幕 … 
9.7.11 使 用 TensorFlow RNN API 和 预 训练 的 GloVe 词 向 量 
总 结 .… 


认识 情感 分 析 . 
情感 分 析 的 问题 . 
情感 文档 分 类 

句子 主观 性 与 情感 分 类 . 
基于 方面 (Aspect) 的 情感 分 析 … 
情感 词典 生成 


比较 观点 分 析 . 
意见 搜索 ……… 


10.10.1 垃圾 评论 概述 … 
10.10.2 垃圾 评论 的 类 型 
10.10.3 ”可 观察 到 的 信息 
10.10.4 数据 样本 .……. 
10.10.5 垃圾 评论 检测 方法 . 


10.12.1 训练 语 料 
10.12.2 ”分词 和 切 分 词 … 
10.12.3 索引 长 度 标准 化 
10.12.4 反 向 切 分 词 
10.12.5 “准备 词 向 量 和 矩阵 
10.12.6 ”填充 和 截 短 .… 
10.12.7 ”构建 模型 


11.2.1 基于 转换 的 机 器 翻译 


11.2.2 语 际 机 器 翻译 
11.2.3 ”基于 字典 的 机 器 翻译 .… 
11.3 统计 机 器 翻译 
11.3.1 统计 机 器 翻译 的 基础 … 
11.3.2 基于 词 的 翻译 .. 
11.3.3 基于 短语 的 翻译 .. 
11.3.4 基于 句法 的 翻译 .. 
11.3.5 ”基于 分 层 短语 的 翻译 .… . 
1B36: 议 计 机 如 翻译 的 优势 与 处 轩 so Eel 
11.4 神经 网 络 机 器 翻译 … 
11.4.1 发 展 背景 .… 
11.4.2 神经 网 络 机 器 翻译 的 特性 
11.4.3 ”通过 例子 来 认识 神经 网 络 机 器 翻译 ( NMT ) 模型 的 结构 .. 
11.4.4 和 神经 网 络 机 器 翻译 (NMT ) 模型 结构 详解 
11.5 神经 网 络 机 器 翻译 (NMT) 系统 的 前 期 准备 工作 
11.5.1 训练 阶段 
11.5.2 反 转 源 语句 .. 
11.5.3 测试 阶段 
11.6 ”BLEU 评分 一 一 评估 机 器 翻译 系统 
11.6.1 BLEU 简 述 ... 
11.6.2 BLEU 度量 
11.6.3 ”BLEU 的 调整 和 惩罚 因子 .…. 
11.6.4 ”BLEU 得 分 总 结 ………- 
11.7 ”完整 实现 神经 网 络 机 器 翻译 一 一 德语 到 英语 翻译 
11.7.1 关于 样本 数据 
11.7.2 ” 预 处 理 数据 .…... 
11.7.3 ”学习 词 向 量 
11.7.4 定义 编码 器 和 解码 器 
11.7.5 定义 端 到 端 输出 计算 … 
11.7.6 和 神经 网 络 机 器 翻译 系统 运行 结果 ( 部 分 ) 的 展示 .. 
11.8 结合 词 向 量 训练 神经 网 络 机 器 翻译 系统 ………………..…. 
11.8.1 最 大 化 数据 集 词汇 和 预 训练 词 向 量 之 间 的 匹配 .…. 
11.8.2 ”为 词 谋 入 层 定义 TensorFlow 变量 
11.9 优化 神经 网 络 机 器 翻译 系统 ….… 
11.9.1 Teacher Forcing 算法 
11.9.2 深度 LSTM 
11.9.3 注意 力 模型 .… 


XIV | TensorFlow 与 自然 语言 处 理应 用 


1 天 注意 力 机 抽 
11.10.1 定义 权重 值 
11.10.2 计算 注意 力 
11.10.3 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 的 部 分 翻译 结果 .… 

11.11 可 视 化 源 语 句 和 目标 语句 的 注意 力 … 

11.12 历史 性 突破 一 一 BERT 模型 .…………- 
11.12.1 BERT 模型 简 述 
11.12.2 ”BERT 模型 结构 

11.13 总 结 .…… 

第 12 章 智能 问答 系统 .. 

1 

12.2 ”基于 知识 库 的 问答 
12.2.1 信息 抽取 
12.2.2 语义 分 析 模 式 
12.2.3 ”信息 抽取 与 语义 分 析 小 结 … 
12.2.4 挑战 

12.3 ”机 器 理解 中 的 深度 学 习 
12.3.1 任务 描述 .… 
12.3.2 ”基于 特征 工程 的 机 器 理解 方法 
12.3.3 ”机 器 理解 中 的 深度 学 习 方法 … 

12.4 利用 TensorFlow 实现 问答 任务 .………… 
12.4.1 bAbI 数据 集 
12.4.2 分析 GloVe 并 处 理 未 知 令 牌 … 
12.4.3 ”已 知 或 未 知 的 数据 部 分 … 
12.4.4 
12.4.5 
12.4.6 
12.4.7 ”问题 部 分 
12.4.8 情景 记忆 部 分 
12.4.9 注意 力 部 分 .…… 
12.4.10 答案 模块 … 
12.4.11 模型 优化 .…. 


自然 然 语言 言 处理 基 础 


自然 语言 处 理 (Natural Language Processing，NLP) 是 一 个 跨 学 科 领 域 ， 它 结合 了 计算 科学 、 
语言 学 、 认 知 科学 和 人 工 智能 , 主要 研究 能 够 让 计算 机 实现 与 人 类 语言 有 关 的 各 类 任务 的 各 种 理论 
和 方法 ,特别 是 如 何 对 计算 机 进行 编程 以 处 理 和 分 析 大 量 自然 语言 数据 〈 非 结构 化 的 数据 ) 。 从 科 
学 的 角度 来 看 ，NLP 上 旨 在 对 人 类 语言 理解 和 产生 的 认 知 机 制 进行 建 模 。 从 工程 角度 来 看 ，NLP 关 
注 如 何 开发 新 颖 的 实际 应 用 程序 以 促进 计算 机 与 人 类 语言 之 间 的 交互 。 在 自然 语言 处 理 中 , 经 常 过 
到 的 挑战 包括 语音 识别 、 口 语 理解 、 对 话 系 统 、 词 汇 分 析 、 句 法 解析 、 机 器 翻译 、 知 识 图 谱 、 信 息 
检索 、 问 题 问答 、 情 感 分 析 、 社 交 计 算 、 自 然 语 言 生成 和 自然 语言 摘要 等 。 当 然 ， 自 然 语言 处 理工 
作 也 是 计算 机 科学 中 极其 困难 的 工作 任务 。 语 言 本 身 存在 着 各 种 各 样 的 问题 ， 亦 因 语 言 而 异 。 

幸运 的 是 ， 最 近 几 年 深度 学 习 领 域 获得 快速 发 展 ， 使 得 深度 学 习 算 法 在 诸如 图 像 分 类 、 语 音 识 
别 、 文 本 生成 、 机 器 翻译 等 诸多 带 有 很 强 挑战 性 的 工作 任务 中 表现 优异 ， 加 速 了 深度 学 习 与 NLP 
各 工作 任务 的 深度 融合 , 从 而 使 得 自然 语言 处 理 领 域 焕发 出 新 的 活力 。 而 在 深度 学 习 被 广泛 应 用 的 
过 程 中 ， 出 现 了 多 种 技术 框架 ， 其 中 TensorFlow 是 目前 最 直观 、 最 有 效 的 深度 学 习 框 架 之 一 。 本 
书 重 点 探讨 如 何 利用 TensorFlow 深度 学 习 框架 去 实现 NLP 的 各 种 任务 ,例如 句子 分 类 、 文 档 分 类 、 
文本 生成 、 图 像 字幕 自动 生成 、 机 器 翻译 、 智 能 问答 等 。 

在 本 章 中 ， 我 们 将 要 对 于 自然 语言 处 理 基 础 有 一 个 初步 了 解 ， 并 对 NLP 的 主要 工作 任务 做 一 
个 划分 ; 然后 我 们 将 对 NLP 领域 的 三 个 发 展 浪潮 做 详细 解读 ， 并 对 当前 NLP 领域 中 深度 学 习 的 局 
限 性 进行 剖析 ; 最 后 ， 我 们 还 会 对 于 NLP 的 应 用 场景 和 应 用 前 景 做 个 简要 阐述 。 
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1.1 认识 自然 语言 处 理 


根据 《2017 微 信 数 据 报告 》 显 示 ， 每 天 会 有 380 亿 条 信息 从 微 信 上 发 出 ， 如 果 按 照 每 条 信息 
都 是 文字 “你 吃饭 了 么 ”计算 ， 通 过 微 信 发 送 的 信息 每 天 的 数据 量 在 350GB 以 上 (一 个 汉字 占 2 
字 节 ，1024 字 节 =1KB) 。 而 实际 的 数据 量 会 更 多 ,因为 这 些 信息 会 有 不 少 语音 、 动画 表情 、 图 片 、 
小 视频 等 。 其实， 在 实际 工作 中 ,我 们 每 天 都 在 处 理 的 电子 邮件 、 各 类 报告 文档 等 同样 也 在 以 惊人 
的 速度 充斥 着 整个 网 络 环境 。2018 年 6 月 ， 据 科技 公司 Domo 预测 ， 到 2020 年 ， 世 界 上 每 人 每 
天 将 产生 超过 140GB 的 数据 ， 并 且 随 着 物 联 网 的 迅猛 发 展 ， 这 个 数字 将 会 继续 扩大 。 

正 是 由 于 这 些 统计 数据 的 存在 ， 才 使 得 我 们 为 界定 NLP 提供 了 良好 的 基础 。 简 而 言 之 ，NLP 
的 目标 就 是 让 机 器 拥有 真正 理解 人 类 语言 并 以 与 人 类 相同 的 方式 处 理 它 的 能 力 。 如 今 ，NLP 的 应 
用 已 经 广泛 存在 ， 就 像 我 们 日 常生 活 中 常用 到 的 虚拟 助手 “VA〉， 常 见 的 有 百度 语音 助手 、 讯 飞 
语音 助手 、Google 智能 助理 、 微 软 的 个 人 智能 助理 小 娜 〈Cortana) 、 苹 果 系 统 的 Siri 等 ， 这 些 虚 
拟 助手 主要 是 NLP 系统 在 运行 。 比 如 ， 你 告诉 语音 助手 “请 告诉 我 附近 好 吃 的 麻辣 溪 在 哪儿 ?” 
首先 ，VA 需要 将 你 的 声音 转换 为 文本 语音 到 文本 ) 。 接 下 来 ，VA 必须 理解 你 请 求 的 语义 〈 例 
如 , 你 正在 寻找 带 有 麻辣 溪 美 食 且 好 吃 的 餐厅 ) 并 制定 结构 化 请 求 ( 例 如 , 美食 = 麻辣 溪 , 评级 = 3-5， 
距离 <3 公里 ) 。 然 后 ，VA 必须 按 位 置 和 菜肴 两 个 条 件 搜索 并 筛选 出 餐厅 ， 再 按 收 到 的 评级 对 餐 
厅 进 行 排序 。 为 了 计算 餐厅 的 整体 评级 ， 良 好 的 NLP 系统 可 以 查看 每 个 用 户 提供 的 评级 和 文本 描 
述 。 最 后 ， 用 户 到 达 和 餐厅 ，VA 还 可 以 将 各 种 菜品 组 合 的 受 欢迎 程度 进行 综合 推荐 ， 以 此 来 帮助 你 
做 出 更 好 的 选择 。 这 个 例子 表明 NLP 已 成 为 人 类 生活 中 不 可 或 缺 的 一 部 分 。 


1.2 ”自然 语言 处 理 方面 的 任务 


NLP 其 实 有 许多 实际 的 应 用 ， 而 一 个 好 的 NLP 系统 会 执行 多 个 任务 系统 。 比 如 ， 上 面 提 到 的 
你 要 在 当前 位 置 选 择 麻 辣 溪 小 吃 店 的 例子 ,其 实 就 是 在 执行 多 个 NLP 任务 系统 ,关于 NLP 的 任务 ， 
主要 有 以 下 几 类 : 


@@ ”标记 化 : 标记 化 是 将 文本 语料库 分 离 为 原子 单元 ( 例如， 单词 ) 的 任务 。 虽 然 看 似 微 不 
足 道 ， 但 是 标记 化 却 是 一 项 非常 重要 的 工作 任务 。 例 如 ， 在 日 语 中 ， 单 词 不 以 空格 或 标 
点 符号 分 隔 。 

@ 词义 消 歧 (Word-sense Disambiguation, WSD ) : 词义 消 歧 是 识别 单词 正确 含义 的 任务 。 
例如 ， 有 两 个 句子 ，“ 你 提供 的 图 真 好 看 ”和 “你 图 哈 ? ”， 其 中 “图 ”就 有 两 种 不 同 
的 含义 。 词 义 消 歧 对 于 诸如 问答 之 类 的 任务 至 关 重 要 。 

@ 命名 实体 识别 (Named Entity Recognition，NER ) : NER 尝试 从 给 定 的 文本 主体 或 文本 
语料库 中 提取 实体 (例如 ， 人 、 位 置 和 组 织 ) 。 例如， 有 一 个 句子 ，“ 林 阿姨 昨天 在 小 
区 门口 给 了 小 明 两 瓶 牛奶 ”， 将 被 转换 为 蕉 同 妇 ( 有 天 sj 站 在 小 区 1] 口 sgp 给 了 
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小 多 矶 旋 # 牛 奶 。NER 是 信息 检索 和 知识 表示 等 领域 的 一 个 重要 课题 。 

@ 词性 (Partof-Speech， 了 PoS ) 标注 : 是 词汇 基本 的 语法 属性 ， 通 常 也 称 为 词类 ， 既 可 以 
是 和 名词、 动词、 形容词、 副词、 介词 等 基本 标签 ， 也 可 以 是 诸如 专 有 名 词 、 普 通 名 词 、 
短语 动词 等 。 词 性 标注 就 是 在 给 定 句子 中 判定 每 个 词 的 语法 范畴 ， 确 定 其 词性 并 加 以 标 
注 的 过 程 ， 是 中 文 信息 处 理 面 临 的 重要 基础 性 问题 ， 主 要 可 以 分 为 基于 规则 和 基于 统计 
的 方法 。 

@ “句子 /概要 分 类 : 句子 或 概要 ( 例如， 电影 评论 ) 分 类 有 许多 用 例 ， 例 如 垃圾 邮件 检测 、 
新 闻 文 章 分 类 (诸如 政治 、 科 技 和 体育 等 ) 和 产品 评论 评级 ( 正面 或 负面 ) 。 这 是 通过 
训练 带 标签 的 数据 ( 由 人 类 注释 的 评论 ， 带 有 积极 或 消极 的 标签 ) 来 训练 分 类 模型 实现 
的 。 

@ 文本 生成 : 在 文本 生成 中 ， 学 习 模型 ( 例如， 神经 网 络 ) 使 用 文本 语料库 ( 大 量 文本 文 
档 集合 ) 进行 训练 ， 预 测 随 后 的 新 文本 。 例 如 ， 文 本 生成 可 以 通过 使 用 现 有 的 小 说 故事 
文本 进行 训练 来 输出 一 个 全 新 的 小 说 故事 文本 。 当 然 ， 具体 的 实现 过 程 会 涉及 具体 模型 
的 实施 ， 具 有 一 定 的 复杂 性 。 本 书 第 8 章 将 专门 针对 文本 生成 做 详细 解读 。 

@ 问答 (QA) 系统 : QA 技术 具有 很 高 的 商业 价值 ， 因 为 这 些 技术 是 聊天 机 器 人 和 VA ( 例 
如 谷歌 Assistant 和 苹果 Siri ) 实现 的 基础 所 在 。 聊天 机 器 人 已 经 被 许多 公司 用 于 客户 支持 
工作 。 聊 天 机 器 人 可 以 用 来 回答 和 解决 客户 直接 关心 的 问题 ， 而 不 需要 人 工 干预 。QA 涉 
及 NLP 的 许多 方面 ， 比 如 信息 检索 和 知识 图 谱 中 的 知识 表示 。 因 此 开发 QA 系统 变 得 更 
加 具有 挑战 性 。 

@ ”机 器 翻译 : 是 将 一 个 句子 /短语 从 源 语言 ( 如 汉语 ) 转换 为 目标 语言 (如 英语 ) 的 任务 。 
这 是 一 个 非常 具有 挑战 性 的 任务 ， 因 为 不 同 的 语言 具有 高 度 不 同 的 形态 结构 ， 这 意味 着 
它 不 是 一 对 一 的 转换 。 此外， 语言 之 间 的 字 对 字 关 系 可 以 是 一 对 多 、 一 对 一 、 多 对 一 或 
多 对 多 。 这 在 MT 文献 中 被 称 为 单词 对 齐 问题 。 


为 了 开发 一 个 可 以 帮助 人 们 完成 日 常任 务 的 系统 (例如 ，VA 或 聊天 机 器 人 ) ， 这 些 任务 中 的 
许多 工作 需要 放 在 一 起 执行 。 正 如 我 们 在 前 面 的 例子 中 看 到 的 那样 ,，“ 请 告诉 我 附近 好 吃 的 麻辣 溪 
在 哪儿 ? ”需要 完成 几 个 不 同 的 NLP 任务 ， 例 如 语音 到 文本 转换 、 语 义 和 情 感 分 析 、 问 题 回答 和 
机 器 翻译 。 在 图 1.1 中 ,我 们 提供 了 不 同 NLP 任务 的 层次 分 类 。 我 们 首先 有 两 大 类 任务 : 分 析 ( 分 
析 现 有 文本 ) 和 生成 〈 生 成 新 文本 ) 任务 。 然 后 将 分 析 分 为 三 类 : 句法 〈 基 于 语言 结构 的 任务 ) 、 
语义 (基于 意义 的 任务 ) 和 语 用 难以 解决 的 开放 问题 ) ， 如 图 1-1 所 示 。 

目前 ， 我 们 对 于 自然 语言 处 理 及 其 各 种 任务 分 类 有 了 一 定 的 了 解 ， 下 面 我 们 将 探讨 一 下 NLP 
的 起 源 、 发 展 及 现状 。 
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图 1-1 广义 范畴 下 的 NLP 主要 任务 分 类 
1.3 第 一 阶段 : 偏 理论 的 理性 主义 


NLP 研究 的 第 一 次 浪潮 持续 了 很 长 一 段 时 间 , 可 以 追溯 到 20 世纪 50 年 代 。1950 年 , 阿兰 。 图 
灵 提 出 了 图 灵 测 试 来 评估 计算 机 展示 与 人 类 无 法 区 分 的 智能 行为 的 能 力 〈 图 灵 ，1950) (注意: 本 
书 这 种 “人 名 ， 年 份 ”的 说 明 方式 用 于 读者 必要 时 查阅 下 载 资 源 文件 ， 以 确认 参考 文献 的 出 处 ) 。 
该 测试 基于 人 和 计算 机 之 问 的 自然 语言 对 话 ， 旨 在 产生 类 似 人 的 响应 。 1954 年 ，Georgetown-IBM 
实验 展示 了 第 一 个 能 够 将 60 多 个 俄语 句子 翻译 成 英语 的 机 器 翻译 系统 。 

这 些 方 法 基于 这 样 一 种 信念 , 即 人 类 大 脑 中 的 语言 知识 是 通过 一 般 遗 传 而 提前 固定 下 来 的 , 这 
在 20 世纪 60 年 代 到 20 世纪 80 年 代 后 期 的 NLP 研究 中 占 主导 地 位 。 这 些 方法 被 称 为 理性 主义 方 
法 (Church，2007) 。 理 性 主义 方法 在 NLP 中 占有 主导 地 位 ， 主 要 是 由 于 诺 姆 。 乔 姆 斯 基 关 于 先 
天 语言 结构 的 论点 得 到 广泛 接受 ， 以 及 他 对 N-gram 的 批评 (Chomsky，1957) 。 假 设 语言 的 关键 
部 分 在 出 生 时 就 已 经 扎根 于 大 脑 , 作为 人 类 遗传 的 一 部 分 , 理性 主义 方法 会 努力 设计 人 工 制作 的 规 
则 ,将 相关 知识 和 推理 机 制 融入 智能 NLP 系统 。 直 到 20 世纪 80 年 代 ， 最 著名 的 NLP 系统 是 基于 
复杂 的 手写 规则 集 的 ， 例 如 模拟 罗 格 氏 (Rogerian) 心理 治疗 师 的 ELIZA 和 将 现实 世界 的 信息 构 
造成 概念 本 体 的 MARGIE， 是 基于 复杂 的 手写 规则 集 。 

这 一 时 期 大 致 与 人 工 智能 的 早期 发 展 相 吻合 ， 人 工 智能 以 专家 知识 工程 为 特征 , 行业 专家 根据 
他 们 所 拥有 的 (非常 狭窄 的 ) 应 用 领域 的 知识 设计 了 计算 机 程序 (Nilsson, 1982; Winston, 1993)。 
专家 们 使 用 基于 细致 的 表示 和 工程 学 知识 的 符号 逻辑 规则 来 设计 这 些 程序 .这 些 基 于 知识 的 人 工 智 
能 系统 往往 通过 检查 “大 脑 ” 或 最 重要 的 参数 ， 并 针对 每 个 具体 情况 采取 适当 行动 , 从 而 有 效 地 解 
决 特定 领域 的 问题 。 这 些 “ 大 脑 ” 参 数 由 人 类 专家 提前 确定 ， 使 “尾部 ”参数 和 案例 保持 不 变 。 
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于 缺乏 学 习 能 力 , 很 难 将 其 解决 方案 推广 到 新 的 场景 和 领域 。 在 此 期 间 的 典型 方法 是 专家 系统 , 例 
如 模拟 人 类 专家 决策 能 力 的 计算 机 系统 。 这 种 系统 则 在 通过 推理 知识 来 解决 复杂 问题 (Nilsson， 

1982) 。 第 一 个 专家 系统 创建 于 20 世纪 70 年 代 , 而 后 在 20 世纪 80 年 代 兴 起 。 使 用 的 主要 “算法 ” 
是 “fthen-else” 形 式 的 推理 规则 (Jackson，1998) 。 这 些 第 一 代 人 工 智能 系统 的 主要 优势 在 于 其 
执行 逻辑 推理 (有限 的 ) 能 力 的 透明 性 和 可 解释 性 。 就 像 ELIZA 和 MARGIE 这 样 的 NLP 系统 一 
样 ， 早 期 的 专家 系统 使 用 人 工 制作 的 专家 知识 库 ， 这 些 知识 在 某 些 特定 的 问题 中 往往 是 有 效 的 ， 尽 
管 推理 机 制 不 能 处 理 实际 应 用 中 普遍 存在 的 不 确定 性 。 

对 于 语音 识别 的 研究 和 系统 设计 ，NLP 和 人 工 智 能 面临 的 一 个 长 期 挑战 是 在 很 大 程度 上 需要 
依赖 于 专家 知识 工程 的 范式 ， 正 如 Church 和 Mercer (Church 和 Mercer，1993) 所 分 析 的 那样 。 
在 20 世纪 70 年 代 和 80 年 代 初期 ,语音 识别 的 专家 系统 方法 非常 受 欢 迎 (Reddy, 1976; Zue, 1985)。 
然而 , 研究 人 员 敏 锐 地 认识 到 该 阶段 缺乏 从 数据 中 学 习 和 处 理 推理 中 不 确定 性 的 能 力 , 继而 出 现 接 
下 来 描述 的 第 二 阶段 语音 识别 、NLP 和 人 工 智能 。 


1.4 第 二 阶段 : 偏 实 践 应 用 的 经 验 主义 


该 阶段 NLP 的 特点 是 通过 数据 语料库 和 浅 ) 机 器 学 习 、 统 计 或 其 他 方法 来 使 用 数据 样本 
(Manning 和 Schtze, 1999) 。 由 于 自然 语言 的 大 部 分 结构 和 理论 被 数据 驱动 的 方法 所 忽视 或 抛弃 ， 
所 以 这 期 间 发 展 起 来 的 主要 方法 被 称 为 经 验 的 (或 实用 的 ) 方 法 (Church and Mercer, 1993; Church， 
2014) 。 随 着 机 器 可 读数 据 可 用 性 的 增加 和 计算 能 力 的 不 断 提高 ， 从 1990 年 开始 ， 经 验方 法 一 直 
主导 着 NLP。 其 中 一 个 主要 的 NLP 会 议 甚至 被 命名 为 “自然 语言 处 理 中 的 经 验方 法 (EMNLP) ”， 
以 最 直接 地 反映 出 NLP 研究 人 员 在 该 阶段 对 经 验方 法 的 强烈 (积极 倾向 性 。 

与 理性 主义 方法 相反 , 经 验方 法 假设 人 类 思维 只 从 联想 、 模 式 识别 和 概括 的 一 般 操作 着 手 。 为 
了 使 得 大 脑 更 好 地 学 习 自 然 语言 的 详细 结构 ， 需 要 存在 丰富 的 感官 输入 才 可 以 。 自 1920 年 以 来 ， 
经 验 主义 在 人 口 学 中 普遍 存在 ， 自 1990 年 以 来 经 验 主义 也 一 直 在 复苏 。 早 期 的 NLP 经 验方 法 侧重 
于 开发 生成 模型 ， 如 隐 马 尔 可 夫 模型 (HMM) (Baum 和 Petrie，1966) 、IBM 翻译 模型 (Brown 
等 ，1993) 和 脑 部 驱动 的 解析 模型 Collins，1997) 从 大 型 语料库 中 发 现 语言 的 规律 性 。 自 20 世 
纪 90 年 代 末 以 来 ， 判 别 模型 已 成 为 各 种 NLP 任务 中 实用 的 方法 。NLP 中 的 代表 性 判别 模型 和 方 
法 包括 最 大 炉 模型 (Ratnaparkhi，1997) 、 支 持 向 量 机 (Vapnik，1998〉、 条 件 随机 场 (Lafferty 
等 ，2001) 、 最 大 互信 息 和 最 小 分 类 误差 (He 等 ，2008) 和 感知 器 〈Collins，2002) 。 

同样 ，NLP 中 的 经 验 主 义 时代 与 人 工 智能 以 及 语音 识别 和 计算 机 视觉 中 的 方法 相对 应 。 这 是 
因为 有 明确 的 证 据 表明 , 学 习 和 感知 能 力 对 于 复杂 的 人 工 智能 系统 至 关 重 要 , 但 在 前 一 波 流行 的 专 
家 系统 中 却 缺失 了 。 例 如 ， 当 DARPA 开启 其 首次 自动 驾驶 大 挑战 时 ， 大 多 数 车 辆 依赖 于 基于 知识 
的 人 工 智能 范式 。 与 语音 识别 和 NLP 非常 相似 ， 自 动 驾驶 和 计算 机 视觉 研究 人 员 立 即 意识 到 基于 
知识 范式 的 局 限 性 ， 因 为 机 器 学 习 必须 具有 不 确定 性 处 理 和 泛 化 能 力 。 

NLP 中 的 经 验 主义 和 第 二 阶段 中 的 语音 识别 是 基于 数据 密集 型 的 机 器 学 习 ， 我 们 现在 称 之 为 
“ 浅 层 ” 机 器 学 习 ， 因 为 这 里 通常 会 缺少 由 多 层 或 “深层 ”数据 表示 构成 的 抽象 ， 第 三 阶段 深度 学 
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习 方 面 将 在 后 面 继续 开展 。 在 机 器 学 习 中 ， 研 究 人 员 无 须 关 注 构建 第 一 阶段 期 间 基于 知识 的 NLP 
和 语音 系统 所 需 的 精确 度 和 正确 规则 。 他 们 关注 统计 模型 (Bishop，2006; Murphy，2012) 或 简 
单 的 神经 网 络 (Bishop，1995 ) 作为 潜在 引擎 。 然 后 , 他 们 使 用 充足 的 训练 数据 自动 学 习 或 “调整 ” 
引擎 的 参数 , 以 使 它们 处 理 不 确定 性 , 并 尝试 从 一 个 场景 推广 到 另 一 个 场景 ,从 一 个 域 到 另 一 个 域 。 
用 于 机 器 学 习 的 关键 算法 和 方法 包括 EM、 贝 叶 斯 网 络 、 支 持 向 量 机 、 决 策 树 及 用 于 神经 网 络 的 反 
向 传播 算法 。 

现在 回 过 头 来 看 ， 基 于 机 器 学 习 的 NLP、 语 音 识 别 和 其 他 人 工 智能 系统 ， 比 早期 的 基于 知识 
的 对 应 部 分 表现 更 佳 。 诸如 一 些 成 功 的 例子 , 包括 机 器 知觉 中 的 几乎 所 有 人 工 智能 任务 一 一 语音 识 
别 (Jelinek, 1998) 、 人 脸 识别 (Viola 和 Jones,，2004)、 视 觉 对 象 识别 (Fei-Fei 和 Perona, 2005) 、 
手写 识别 (Plamondon 和 Srihari，2000) 和 机 器 翻译 (Och，2003) 。 

具体 来 看 ， 针 对 机 器 翻译 应 用 方面 ， 传 统 方法 还 是 以 统计 方法 主 ， 我 们 也 会 在 本 书 的 第 11 章 
对 机 器 翻译 部 分 做 详细 解读 

双语 训练 数据 中 句子 级 对 齐 的 可 用 性 使 得 不 通过 规则 而 是 直接 从 数据 中 获得 表层 翻译 成 为 可 
能 ， 代 价 是 丢弃 或 忽略 自然 语言 中 的 结构 化 信息 。 当 然 , 在 本 阶段 的 后 续 发 展 中 ， 机 器 翻译 的 质量 
也 得 到 了 显著 提升 (Och 和 Ney，2002; Och，2003; Chiang，2007; He 和 Deng，2012) ， 但 还 
是 没有 达到 现实 世界 中 大 规模 部 署 的 水 平 〈 后 续 深 度 学 习 阶 段 将 会 继续 探讨 ) 。 

在 NLP 的 对 话 和 口语 理解 领域 , 这 个 经 验 主义 时 代 也 以 数据 驱动 的 机 器 学 习 方法 为 显著 标志 ， 
这 些 方法 非常 适合 于 定量 评价 和 有 具体 可 交付 成 果 的 要 求 。 他 们 关注 的 是 文本 和 域 的 更 广泛 但 肤浅 的 
表层 覆盖 ， 而 不 是 对 高 度 受 限 的 文本 和 域 的 详细 分 析 。 我 们 训练 数据 的 目的 ， 不 是 从 对 话 系统 中 设 
计 出 有 关 语 言 理解 和 动作 反映 方面 的 规则 ,而 是 从 数据 样本 中 自动 学 习 ( 浅 层 ) 统计 或 神经 模型 方 
面 的 参数 。 这 种 学 习 有 助 于 降低 人 工 制作 复杂 对 话 管理 器 的 设计 成 本 , 并 有 助 于 提高 整体 口语 理解 
和 对 话 系统 中 语音 识别 错误 的 鲁 棒 性 水 平 (He 和 Deng，2013) 。 具 体 来 看 ， 对 话 系 统 中 对 话 策略 
部 分 ， 在 本 阶段 引入 了 基于 马尔 科 夫 决 策 过 程 的 强化 学 习 ， 有 关 评 论 ， 可 以 参阅 Young 等 人 的 文 
章 (Young 等 ，2013) 。 在 口语 理解 方面 ， 主 要 方法 从 第 一 阶段 基于 规则 或 模板 的 方法 转移 到 生成 
模型 ， 如 隐 马 尔 科 夫 模 型 (HMMS) (Wang 等 ，2011) ， 再 到 判别 模型 ， 如 条 件 随 机 场 (Tur 和 
Deng，2011) 。 

同样 , 在 语音 识别 领域 , 从 20 世纪 80 年 代 早期 到 2010 年 左右 , 该 领域 主要 由 机 器 学 习 ( 浅 ) 
范式 主导 ， 使 用 基于 与 高 斯 混合 模型 集成 的 HMM 的 统计 生成 模型 ， 以 及 不 同 版 本 的 泛 化 方面 
(Baker 等 ，2009; Deng 和 O’Shaughnessy，2003; Rabiner 和 Juang，1993) 。 广 义 HMMs 的 许多 
版 本 是 基于 统计 和 神经 网 络 的 隐藏 动态 模型 (Deng，1998; Bridle 等 ，1998; Deng 和 Yu，2007)。 
前 者 采用 EM 和 扩展 卡尔 曼 滤波 算法 来 学 习 模 型 参数 (Ma 和 Deng，2004; Lee 等 ，2004) ; 后 者 
使 用 了 反 向 传播 (Picone 等 ，1999) 。 它 们 都 广泛 地 利用 了 多 个 潜在 的 表示 层 来 生成 语音 波形 ， 遵 
循 人 类 语音 感知 中 长 期 存在 的 通过 合成 进行 分 析 的 框架 。 更 重要 的 是 ， 将 这 种 “深层 ”生成 过 程 转 
化 为 端 到 端 判别 过 程 的 对 应 , 引起 了 深度 学 习 第 一 次 在 工业 上 的 成 功 (Deng 等 , 2010, 2013; Hinton 
等 ，2012) ， 形 成 了 第 三 阶段 的 语音 识别 和 NLP 的 驱动 力 ， 接 下 来 我 们 将 对 此 进行 曾 述 。 
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1.5 第 三 阶段 : 深度 学 习 阶段 


虽然 在 第 二 阶段 开发 的 NLP 系统 ， 包 括 语音 识别 、 语 言 理 解 和 机 器 翻译 ， 比 第 一 阶段 开发 系 
统 的 表现 更 好 ， 具 有 更 高 的 鲁 棒 性 ， 但 它们 远 未 达到 人 类 级 别 的 水 平 ， 还 有 很 多 地 方 需要 改进 。 除 
了 少数 例外 ，NLP 的 ( 浅 ) 机 器 学 习 模 型 通常 没有 足够 大 的 容量 来 吸收 大 量 的 训练 数据 。 此 外 ， 
涉及 的 这 些 学 习 算 法 、 方 法 和 基础 结构 不 够 强大 。 所 有 这 一 切 都 在 几 年 前 发 生 了 很 大 变化 ， 由 于 深 
层 结构 化 机 器 学 习 或 深层 学 习 的 新 范式 推动 (Bengio, 2009; Deng 和 Yu, 2014; LeCun 等 , 2015; 
Goodfellow 等 ，2016) ， 引 发 了 NLP 的 第 三 波浪 潮 。 

在 传统 的 机 器 学 习 中 ,由 于 特征 是 由 人 设计 的 ， 需 要 大 量 的 人 类 专业 知识 ， 显 然 特征 工程 也 存 
在 一 些 瓶 颈 。 同 时 ， 相 关 的 浅 层 模型 缺乏 表示 能 力 ， 因 此 缺乏 形成 可 分 解 抽象 级 别 的 能 力 ， 这 些 抽 
象 级 别 在 形成 观察 到 的 语言 数据 时 将 自动 分 离 复 杂 的 因素 。 深 度 学 习 的 进步 是 当前 NLP 和 人 工 智 
能 拐点 背后 的 主要 推动 力 ， 并 且 直 接 推动 了 神经 网 络 的 复兴 ， 包 括 商业 领域 的 广泛 应 用 〈Parloff， 
2016) 。 

进一步 讲 ， 尽 管 在 第 二 次 浪潮 期 间 开 发 的 许多 重要 的 NLP 任务 中 ， 判 别 模型 〈 浅 层 ) 取得 了 
成 功 , 但 它们 仍然 难以 通过 行业 专家 人 工 设 计 特征 来 涵盖 语言 中 的 所 有 规则 。 除了 不 完整 性 问题 之 
外 ， 这 种 浅 层 模型 还 面临 稀 玻 性 问题 ， 因 为 特征 通常 仅 在 训练 数据 中 出 现 一 次 ,特别 是 对 于 高 度 稀 
玻 的 高 阶 特征 。 因 此 ， 在 深度 学 习 出 现 之 前 ， 特 征 设计 已 经 成 为 统计 NLP 的 主要 障碍 之 一 。 深 度 
学 习 为 解决 我 们 的 特征 工程 问题 带 来 了 希望 , 其 观点 被 称 为 “从头 开始 NLP”(Collobert 等 , 2011)， 
这 在 深度 学 习 早 期 被 认为 是 非 同 寻常 的 。 这 种 深度 学 习 方法 利用 了 包含 多 个 隐藏 层 的 强大 神经 网 络 
来 解决 一 般 的 机 器 学 习 任务 ， 而 无 须 特 征 工 程 。 与 浅 层 神经 网 络 和 相关 的 机 器 学 习 模 型 不 同 ， 深 层 
神经 网 络 能 够 利用 多 层 非 线 性 处 理 单元 的 级 联 来 从 数据 中 学 习 表示 以 进行 特征 提取 。 由 于 较 高 级 别 
的 特征 源 自 于 较 低级 别 的 特征 ， 因 此 这 些 级 别 构成 了 概念 上 的 层次 结构 。 

深度 学 习 起 源 于 人 工 神经 网 络 , 可 以 将 其 视 为 受 生物 神经 系统 启发 的 细胞 类 型 的 级 联 模型 。 随 
着 反 向 传播 算法 的 出 现 〈Rumelhart 等 ，1986) ， 从 零 开始 训练 深度 神经 网 络 在 20 世纪 90 年 代 受 
到 了 广泛 的 关注 。 其 实在 早期 ， 由 于 没有 大 量 的 训练 数 据 ， 也 没有 适当 的 设计 模式 和 学 习 方 法 ,在 
神经 网 络 训练 期 间 , 学 习 信 和 号 在 层 与 层 之 问 传播 时 会 随 着 层 数 呈 指数 级 消失 , 难以 调整 深度 神经 网 
络 的 连接 权重 值 ， 尤 其 是 循环 模式 。Hinton 等 人 最 初 克服 了 这 个 问题 (Hinton 等 ，2006) ,使 用 
无 监督 的 预 训练 ， 首先 学 习 通常 有 用 的 特征 检测 器 , 然后 通过 监督 学 习 进 一 步 训练 网 络 , 进而 对 标 
记 数 据 进 行 分 类 。 因 此 ,可 以 使 用 低级 表示 来 学 习 高 级 表示 的 分 布 。 这 项 开创 性 的 工作 标志 着 神经 
网 络 的 复兴 。 此 后 各 种 网 络 架构 被 提出 并 开发 出 来 ， 包 括 深度 信念 网 络 (deep belief networks) 
(Hinton 等 ，2006) 、 栈 式 自动 编码 器 (stacked auto-encoders) (Vincent 等 ，2010) 、 深 度 玻 尔 
效 曼 机 (deep Boltzmann machines) (Hinton 和 Salakhutdinov, 2012)、 深 度 卷 积 神经 网 络 (Krizhevsky 
等 ，2012) 、 深 度 堆 到 网 络 (deep stacking networks) (Deng 等 ，2012) 以 及 深度 Q 网 络 (Mnih 
等 ，2015) 。2010 年 以 来 ， 深 度 学 习 能 够 发 现 高 维 数据 中 复杂 的 结构 ， 己 成 功 应 用 于 人 工 智 能 的 
各 种 实际 任务 中 ， 尤 其 是 语音 识别 (Yu 等 ，2010; Hinton 等 ，2012) 、 图 像 分 类 (Krizhevsky 等 ， 
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2012; He 等 ，2016) 和 NLP。 

语音 识别 是 NLP 的 核心 任务 之 一 ， 且 它 在 工业 NLP 实际 应 用 中 受到 深度 学 习 很 大 的 影响 ， 所 
以 我 们 这 里 对 此 进行 一 些 解读 。 深 度 学 习 在 大 规模 语音 识别 中 的 工业 应 用 在 2010 年 左右 开始 起 飞 。 
相关 工作 是 由 学 术 界 和 产业 界 合作 发 起 的 ， 最 初 的 成 果 是 在 2009 年 NIPS 语音 识别 和 相关 应 用 的 
深度 学 习 研讨 会 上 发 布 的 。 这 次 研讨 会 的 目的 是 语音 深层 生成 模型 的 局 限 性 ， 以 及 大 计算 、 大 数据 
时 代 需 要 对 深层 神经 网 络 进行 认真 研究 的 可 能 性 。 当 时 认为 ， 使 用 基于 对 比 散 度 学 习 算 法 

(Contrastive Divergence Learning Algorithm) 的 深度 信念 网 络 生成 模型 进行 DNNs 预 处 理 ， 可 以 克 
服 20 世纪 90 年 代 神 经 网 络 遇 到 的 主要 困难 (Dahl 等 ，2011; Mohamed 等 ，2009) 。 然 而 ， 在 微 
软 早期 关于 这 项 的 研究 中 ， 人 们 发 现 , 没有 对 比 散 度 预 训练 ， 而 是 使 用 大 量 的 训练 数据 ， 连 同 深层 
神经 网 络 ， 这 些 深层 神经 网 络 设计 成 具有 相应 的 大 型 、 上 下 文 相关 的 输出 层 , 并 且 经 过 精心 的 工程 
设计 ， 可 以 获得 比 当 时 最 先进 的 ( 浅 ) 机 器 学 习 系 统 显 著 更 低 的 识别 误差 (Yu 等 ，2010，2011; 
Dahl 等 ，2012) 。 北 美的 其 他 几 个 主要 语音 识别 研究 小 组 〈Hinton 等 ，2012 年 ，Deng 等 ，2013 
年 ) 以 及 随后 一 些 海外 研究 小 组 很 快 就 证 实 了 这 一 发 现 。 此 外 , 还 发 现 这 两 种 类 型 系统 产生 的 识别 
错误 的 本 质 是 不 同 的 , 这 为 如 何 将 深度 学 习 集成 到 现 有 的 由 主要 参与 者 在 语音 识别 中 部 署 的 高 效 运 
行 的 语音 解码 系统 提供 了 技术 支持 (Yu 和 Deng，2015; Abdel-Hamid 等 ，2014; Xiong 等 ，2016; 
Saon 等 ，2017) 。 如 今 ， 应 用 于 各 种 形式 的 深层 神经 网 络 的 反 向 传播 算法 被 统一 应 用 于 所 有 当前 
最 先进 的 语音 识别 系统 (Yu 和 Deng，2015; Amodei 等 ，2016; Saon 等 ，2017) ， 以 及 所 有 主要 
的 商业 语音 识别 系统 一 一 微软 Cortana、Xbox、Skype 翻译 、 亚 马 逊 Alexa、 谷 歌 助 理 、 苹 果 Siri、 
百度 小 度 和 下 lyTek 语音 搜索 等 一 一 都 基于 深度 学 习 方 法 。 

2010 年 、2011 年 语音 识别 的 惊人 成 功 预示 着 第 三 波 NLP 和 人 工 智能 的 到 来 。 随 着 深度 学 习 在 
语音 识别 领域 的 成 功 ， 计 算 机 视觉 (Krizhevsky 等 ，2012) 和 机 器 翻译 (Bahdanau 等 ，2015) 也 
很 快 被 类 似 的 深度 学 习 范 式 所 取代 。 特 别 是 ， 虽 然 早 在 2001 年 就 开发 了 强大 的 词汇 神经 词 嵌 入 技 
术 (Bengio 等 ，2001，Bengio 等 人 在 2001 年 发 表 在 NIPS 上 的 文章 《4 Neural Probabilistic 
Language Mode1》， 现 在 多 数 看 到 的 是 他 们 在 2003 年 投 到 JMLR 上 的 同名 论文 ) ， 但 直到 十 多 
年 后 , 由 于 大 数据 的 可 用 性 和 计算 机 更 快 的 计算 能 力 , 它 才 被 证 明 在 实际 大 规模 场景 下 具有 真正 的 
价值 (Mikolov 等 , 2013) 。 此 外 , 还 有 大 量 的 其 他 NLP 应 用 ,如 图 像 字幕 (Karpathy 和 Fei-Fei， 
2015; Fang 等 , 2015; Gan 等 人 , 2017) 、 视 觉 问 答 (Fei-Fei 和 Perona, 2016)、 语 音 理解 (Mesnil 
等 ，2013) 、 网 络 搜索 (Huang 等 ，2013 ) 和 推荐 系统 ， 由 于 深度 学 习 的 广泛 应 用 ， 也 有 许多 非 
NLP 任务 ， 像 药物 发 现 和 毒 理学 、 客 户 关 系 管理 、 手 势 识别 、 医 学 信息 学 、 广 告 、 医 学 图 像 分 析 、 
机 器 人 、 无 人 驾驶 车 辆 和 电子 竞技 游戏 (例如 ， 雅 达 利 Atari、Go、 扑 克 和 最 新 的 DOTA2) 等 。 

在 基于 文本 的 NLP 应 用 领域 ， 机 器 翻译 可 能 受到 深度 学 习 的 影响 最 大 。 当 前 ， 在 实际 应 用 中 
表现 最 佳 的 机 器 翻译 系统 是 基于 深度 神经 网 络 的 模式 ， 例 如 ， 谷 歌 于 2016 年 9 月 宣布 开发 第 一 阶 
段 的 神经 网 络 机 器 翻译 ， 而 微软 在 2 个 月 后 发 表 了 类 似 的 声明 。Facebook 已 经 致力 于 神经 网 络 机 
器 翻译 一 年 左右 , 到 2017 年 8 月 , 它 正在 全 面部 署 。 最近, 谷歌 发 布 了 机 器 翻译 领域 最 强 的 BERT 
的 多 语言 模型 。BERT 的 全 称 是 Bidirectional Encoder Representations from Transformers， 是 一 种 预 
训练 语言 表示 的 最 新 方法 。 

BERT 在 机 器 阅读 理解 项 级 水 平 测试 SQuAD1.1 中 表现 出 惊人 的 成 绩 : 两 个 衡量 指标 上 全 面 超 
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越 人 类 , 而 且 在 11 种 不 同 NLP 测试 中 同样 给 出 了 最 好 的 成 绩 , 其 中 包括 将 GLUE 基准 推 至 80.4% 
(绝对 改进 率 7.6% ) ,MultiNLI 准确 度 达 到 86.7% (绝对 改进 率 5.6% ) 等 。 对 于 机 器 翻译 的 解读 ， 
本 书 也 会 在 第 11 章 进行 深入 探讨 。 

在 将 深度 学 习 应 用 于 NLP 问题 的 过 程 中 ， 近 年 来 出 现 的 两 个 重要 技术 突破 是 序列 到 序列 学 习 
(Sutskevar 等 ，2014) 和 注意 力 建 模 (Bahdanau 等 ，2015) 。 序 列 到 序列 学 习 引 入 了 一 个 强大 的 
思想 , 即 利 用 循环 网 络 以 端 到 端的 方式 进行 编码 和 解码 。 虽然 注意 力 建 模 最 初 是 为 了 解决 对 长 序列 
进行 编码 的 困难 ， 但 随后 的 发 展 显然 扩展 了 它 的 功能 ， 能 够 对 任意 两 个 序列 进行 高 度 灵 活 的 排列 ， 
且 可 以 与 神经 网 络 参数 一 起 进行 学 习 。 与 基于 统计 学 习 和 单词 \ 短 语 的 局 部 表示 的 最 佳 系 统 相 比 ， 
序列 到 序列 学 习 和 注意 力 机 制 的 关键 思想 提高 了 基于 分 布 式 嵌 入 的 神经 网 络 机 器 翻译 的 性 能 。 在 这 
一 成 功 之 后 不 久 ， 这 些 概念 也 被 成 功 地 应 用 到 其 他 一 些 与 NLP 相关 的 任务 中 ， 例 如 图 像 字幕 生成 
(Karpathy 和 Fei-Fei，2015; Devlin 等 ，2015) 、 语 音 识别 (Chorowski 等 ，2015) 、 句 法 解析 、 
文本 理解 、 问 答 系 统 等 。 

其 实 , 基于 神经 网 络 的 深度 学 习 模型 通常 比 早期 开发 的 传统 机 器 学 习 模 型 更 易于 设计 。 在 许多 
应 用 中 ， 以 端 到 端的 方式 同时 对 模型 的 所 有 部 分 执行 深度 学 习 ， 从 特征 提取 一 直到 预测 。 促 成 神经 
网 络 模型 简化 的 另 一 个 因素 是 相同 模型 构建 的 模块 (例如 不 同类 型 的 层 ) 通常 也 可 以 适用 于 许多 不 
同 的 任务 。 另 外 ， 还 开发 了 软件 工具 包 ， 以 便 更 快 更 有 效 地 实现 这 些 模型 。 基 于 这 些 原 因 ， 深 度 神 
经 网 络 现在 是 大 型 数据 集 (包括 NLP 任务 ) 上 的 各 种 机 器 学 习 和 人 工 智 能 任务 的 主要 选择 方法 。 

尽管 深度 学 习 已 经 被 证 明 能 够 以 革命 性 的 方式 对 语音 、 图 像 和 视频 进行 重 塑 处 理 , 并 且 在 许多 
实际 的 NLP 任务 中 取得 了 经 验 上 的 成 功 , 在 将 深度 学 习 与 基于 文本 的 NLP 进行 交叉 时 , 但 其 效果 
却 不 那么 明显 。 在 语音 、 图 像 和 视频 处 理 中 , 深度 学 习 通 过 直接 从 原始 感知 数据 中 学 习 高 级 别 概念 ， 
有 效 地 解决 了 语义 鸿沟 问题 。 然 而 ， 在 NLP 中 ， 研 究 人 员 在 形态 学 、 句 法 和 语义 学 上 提出 了 更 强 
大 的 理论 和 结构 化 模型 ,提炼 出 了 理解 和 生成 自然 语言 的 基本 机 制 , 但 这 些 机 制 与 神经 网 络 并 不 容 
易 兼 容 。 与 语音 、 图 像 和 视频 信号 相 比 ， 从 文本 数据 中 学 习 到 的 神经 表征 似乎 不 能 同样 直接 洞察 自 
然 语 言 。 因 此 ， 将 神经 网 络 特别 是 具有 复杂 层次 结构 的 神经 网 络 应 用 于 NLP， 近 年 来 得 到 了 越 来 
越 多 的 关注 ,也 已 经 成 为 NLP 和 深度 学 习 社区 中 最 活跃 的 领域 ,并 取得 了 显著 的 进步 (Deng,2016; 
Manning 和 Socher，2017) 。 


1.6 NLP 中 深度 学 习 的 局 限 性 


目前 ， 尽 管 深度 学 习 在 NLP 任务 中 取得 了 巨大 的 成 功 ， 尤 其 是 在 语音 识别 /理解 、 语 言 建 模 和 
机 器 翻译 方面 ， 但 目前 仍然 存在 着 一 些 巨大 的 挑战 。 目 前 基于 神经 网 络 作为 黑 盒 的 深度 学 习 方法 普遍 
缺乏 可 解释 性 ， 甚 至 是 远离 可 解释 性 ， 而 在 NLP 的 理论 阶段 建立 的 “理性 主义 ”范式 中 ， 专 家 设计 的 
规则 自然 是 可 解释 的 。 在 现实 工作 任务 中 ， 其 实 是 迫切 需要 从 “ 黑 盒 ” 模 型 中 得 到 关于 预测 的 解释 ， 
这 不 仅仅 是 为 了 改进 模型 ， 也 是 为 了 给 系统 使 用 者 提供 有 针对 性 的 合理 建议 (Koh 和 Liang，2017) 。 

在 许多 应 用 中 , 深度 学 习 方 法 已 经 证 明 其 识别 准确 率 接近 或 超过 人 类 , 但 与 人 类 相 比 , 它 需 要 
更 多 的 训练 数据 、 功 耗 和 计算 资源 。 从 整体 统计 的 角度 来 看 ， 其 精确 度 的 结果 令 人 印象 深刻 , 但 从 
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个 体 角度 来 看 往往 不 可 靠 。 而 且 ， 当 前 大 多 数 深度 学 习 模 型 没有 推理 和 解释 能 力 ， 使 得 它们 容易 遭 
受灾 难 性 失败 或 攻击 ， 而 没有 能 力 预 见 并 因此 防止 这 类 失败 或 攻击 。 另 外 ， 目 前 的 NLP 模型 没有 
考虑 到 通过 最 终 的 NLP 系统 制定 和 执行 决策 目标 及 计划 的 必要 性 。 当前 NLP 中 基于 深度 学 习 方法 
的 一 个 局 限 性 是 理解 和 推理 句子 间 关 系 的 能 力 较 差 ,尽管 在 句子 中 的 词 问 和 短语 方面 已 经 取得 了 巨 
大 进步 。 

目前 ， 在 NLP 任务 中 使 用 深度 学 习 时 ， 虽 然 我 们 可 以 使 用 基于 〈 双 向 ) LSTM 的 标准 序列 模 
型 , 且 遇 到 任务 中 涉及 的 信息 来 自 于 另外 一 个 数据 源 时 可 以 使 用 端 到 端的 方式 训练 整个 模型 , 但 是 
实际 上 人 类 对 于 自然 语言 的 理解 (以 文本 形式 ) 需要 比 序列 模型 更 复杂 的 结构 。 换 句 话说 ， 当 前 
NLP 中 基于 序列 的 深度 学 习 系统 在 利用 模块 化 、 结 构 化 记忆 和 用 于 句子 及 更 大 文本 进行 递归 、 树 
状 表示 方面 还 存在 优化 的 空间 (Manning，2016) 。 

为 了 克服 上 述 挑战 并 实现 NLP 作为 人 工 智能 核心 领域 的 更 大 突破 , 有关 NLP 和 深度 学 习 研 究 
人 员 需 要 在 基础 研究 和 应 用 研究 方面 做 出 一 些 里程 碑 式 的 工作 。 


1.7 NLP 的 应 用 场景 


目前 , 随 着 自然 语言 处 理 领域 研究 越 来 越 深 入 ， 其 应 用 的 行业 越 来 越 广 。 比 如 在 文本 和 语音 方 
面 的 应 用 。 其 中 ， 我 们 可 以 看 到 NLP 在 文本 方面 的 应 用 有 基于 自然 语言 理解 的 智能 搜索 引擎 和 知 
能 检索 、 智 能 机 器 翻译 、 自 动 摘要 与 文本 综合 、 文 本 分 类 与 文件 整理 、 智 能 自动 作文 系统 、 智 能 判 
卷 系 统 、 信 息 过 滤 与 垃圾 邮件 处 理 、 文 学 研究 与 古文 研究 、 语 法 校对 、 文 本 数据 挖掘 与 智能 决策 以 
及 基于 自然 语言 的 计算 机 程序 设计 等 。 在 语音 方面 的 应 用 有 机 器 同 声 传 译 、 智 能 远程 教学 与 答疑 、 
语音 控制 、 智 能 客户 服务 、 机 器 聊天 与 智能 参谋 、 智 能 交通 信息 服务 (ATIS) 、 智 能 解说 与 体育 
新 闻 实 时 解说 .语音 挖掘 与 多 媒体 挖掘 ,多 媒体 信息 提取 与 文本 转化 以 及 对 残疾 人 智能 帮助 系统 等 。 
下 面 我 们 给 出 一 些 常见 的 应 用 场景 。 


1 . 搜索 引擎 


在 搜索 引擎 中 , 我们 常常 使 用 词义 消 歧 、 指 代 消 解 、 句 法 分 析 等 自然 语言 处 理 技 术 ， 以 便 更 好 
地 为 用 户 提供 更 加 优质 的 服务 。 因 为 我 们 的 搜索 引擎 不 仅仅 是 为 用 户 提供 所 寻找 的 答案 , 还 要 做 好 
用 户 与 实体 世界 连接 的 贴心 服务 。 搜 索引 擎 最 基本 的 模式 就 是 自动 化 地 聚合 足够 多 的 信息 , 对 之 进 
行 解析 、 处 理 和 组 织 , 响应 用 户 的 搜索 请 求 并 找到 对 应 结果 再 返回 给 用 户 。 这 里 涉及 的 每 一 个 环节 ， 
都 需要 用 到 自然 语言 处 理 技术 。 例如 , 我 们 日 常生 活 中 使 用 百度 搜索 “天 气 ”“XX 公交 线路 ”“ 火 
车 票 ” 等 这 样 咯 显 模糊 的 需求 信息 ,一 般 情况 下 都 会 得 到 满意 的 搜索 结果 。 自 然 语言 处 理 技术 在 搜 
索引 擎 领域 中 有 了 更 多 的 应 用 , 才 使 得 搜索 引擎 能 够 快速 精准 地 返回 给 用 户 所 要 的 搜索 结果 。 当 然 ， 
另 一 方面 ， 正 是 谷歌 和 百度 这 样 IT 巨头 商业 上 的 成 功 ， 推 进 了 自然 语言 处 理 技术 的 不 断 进步 。 


2 . 推荐 系统 


早 在 1992 年 Goldberg 就 首次 给 出 了 一 个 推荐 系统 : Tapestry。 它 其 实 只 是 一 个 个 性 化 的 邮件 
推荐 系统 ,首次 提出 了 协同 过 滤 的 思想 , 利用 用 户 的 标注 和 行为 信息 对 邮件 进行 重 排序 。 推 荐 系统 
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依赖 的 是 数据 、 算 法 、 人 机 交互 等 环节 的 相互 配合 ， 其 中 使 用 了 数据 挖掘、 信息 检索 和 计算 统计 学 
等 技术 。 我 们 使 用 推荐 系统 的 目的 是 关联 用 户 和 一 些 信 息 , 协助 用 户 找 到 对 其 有 价值 的 信息 ， 且 让 
这 些 信息 能 够 尽快 呈现 在 对 其 感 兴趣 的 用 户 面前 ， 从 而 实现 精准 推荐 。 

推荐 系统 在 音乐 电影 的 推荐 、 电 子 商务 产品 推荐 、 个 性 化 阅读 、 社 交 网 络 好 友 推 荐 等 场景 发 挥 
着 重要 的 作用 , 美国 Netflix 中 2/3 的 电影 是 因为 被 推荐 而 观看 的 ，Google News 利用 推荐 系统 提 
升 了 38% 的 点 击 率 ，Amazon 的 销售 中 推荐 占 比 高 达 35%。 


3 . 机 器 翻译 


机 器 翻译 是 自然 语言 处 理 中 最 为 人 知 的 应 用 场景 , 一般 是 将 机 器 翻译 作为 某 个 应 用 的 组 成 部 分 ， 
例如 跨 语言 的 搜索 引流 等 。 目 前 以 IBM、 谷 歌 、 微 软 为 代表 的 国外 科研 机 构 和 企业 均 相 继 成 立 机 
器 翻译 团队 ， 专 门 从 事 智 能 翻译 研究 。 例 如, IBM 于 2009 年 9 月 推出 ViaVoiceTranslator 机 器 
翻译 软件 ， 为 自动 化 翻译 葛 定 了 基础 ，2011 年 开始 ， 伴 随 着 语音 识别 、 机 器 翻译 技术 、DNN ( 深 
度 神经 网 络 ) 技术 的 快速 发 展 和 经 济 全 球 化 的 需求 , 口语 自动 翻译 研究 已 成 为 当今 信息 处 理 领域 新 
的 研究 热点 ，Google 于 2011 年 1 月 正式 在 其 Android 系统 上 推出 了 升级 版 的 机 器 翻译 服务 ; 
微软 的 Skype 于 2014 年 12 月 宣布 推出 实时 机 器 翻译 的 预览 版 、 支 持 英语 和 西班牙 语 的 实时 翻 
译 ， 并 宣布 支持 40 多 种 语言 的 文本 实时 翻译 功能 。 

尤其 值得 注意 的 是 ， 在 “一 带 一 路 ”这 一 发 展 背景 下 ， 合 作 沟 通 会 涉及 60 多 个 国家 、53 种 
语言 ， 此 时 机 器 翻译 的 技术 应 用 显得 尤为 重要 ， 语 言 的 畅通 是 “一 带 一 路 ”倡议 得 以 实施 的 重要 基 
础 。 机 器 翻译 涉及 语义 分 析 、 上 下 文 环境 等 诸多 挑战 ， 其 发 展 道路 还 有 很 长 一 段 路 要 走 。 

4 . 聊天 机 器 人 

聊天 机 器 人 是 指 能 通过 聊天 App、 聊 天 窗口 或 语音 唤醒 App 进行 交流 的 计算 机 程序 ， 是 被 用 
来 解决 客户 问题 的 智能 数字 化 助手 ， 其 特点 是 成 本 低 、 高 效 且 持续 工作 。 例 如 ，Siri、 小 娜 等 对 话 
机 器 人 就 是 一 个 应 用 场景 。 除 此 之 外 ， 聊 天 机 器 人 在 一 些 电 商 网 站 有 着 很 实用 的 价值 ， 可 以 充当 客 
服 角色 ， 例 如 京东 客服 JIMI。 有 很 多 基本 的 问题 ， 其 实 并 不 需要 联系 人 工 客服 来 解决 。 通 过 应 用 
智能 问答 系统 ， 可 以 排除 掉 大 量 的 用 户 问 题 ， 比 如 商品 的 质量 投诉 、 商 品 的 基本 信息 查询 等 程式 化 
问题 , 在 这 些 特定 的 场景 中 , 特别 是 会 被 问 到 高 度 可 预测 的 问题 中 , 利用 聊天 机 器 人 可 以 节省 大 量 
的 人 工 成 本 。 图 1-2 给 出 了 一 些 聊天 机 器 人 产品 。 

5 . 知识 图 谱 

知识 图 谱 能 够 描述 复杂 的 关联 关系 , 它 的 应 用 极为 广泛 , 最 为 人 所 知 的 就 是 被 用 在 搜索 引擎 中 
丰富 搜索 结果 ， 并 为 搜索 结果 提供 结构 化 结果 来 体现 关联 性 ， 这 也 是 谷歌 提出 知识 图 谱 的 初衷 。 同 
时 微软 小 冰 、 苹 果 Siri 等 聊天 机 器 人 中 也 加 入 了 知识 图 谱 的 应 用 。IBM Watson 是 问答 系统 中 应 用 
知识 图 谱 较为 典型 的 例子 。 按 照应 用 方式 ， 可 以 将 知识 图 谱 的 应 用 分 为 语义 搜索 、 知 识 问答 以 及 基 
于 知识 的 大 数据 分 析 和 决策 等 。 
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时 间 


图 1-2 部 分 聊天 机 器 人 示意 图 


语义 搜索 利用 建立 大 规模 知识 库 对 搜索 关键 词 和 文档 内 容 进 行 语义 标注 , 改善 搜索 结果 ,如 谷 

歌 、 百 度 等 在 搜索 结果 中 嵌入 知识 图 谱 。 知 识 问 答 是 基于 知识 库 的 问答 ,通过 对 提问 句子 的 语义 分 
析 ， 将 其 解析 为 结构 化 的 询问 ,在 已 有 的 知识 库 中 获取 答案 。 在 大 数据 的 分 析 和 决策 方面 ， 知 识 图 
谱 起 到 了 辅助 作用 , 典型 应 用 是 美国 Netflix 公司 利用 其 订阅 用 户 的 注册 信息 以 及 观看 行为 构建 的 
知识 图 谱 反 映 出 英 剧 版 《纸牌 屋 》 很 受 欢 迎 ， 于 是 拍摄 了 美剧 《纸牌 屋 》， 大 受 追 捧 。 知 识 图 谱 展 
示 如 图 1-3 所 示 。 
:a 小 匡 玖 wm IBM Watson Heakh 


1-3 ”知识 图 谱 展 示 图 
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1.8 NLP 的 发 展 前 景 


随 着 深度 学 习 时 代 的 来 临 , 神经 网 络 成 为 一 种 强大 的 机 器 学 习 工具 , 并 使 得 自然 语言 处 理 取得 
了 许多 突破 性 发 展 ， 如 情感 分 析 、 智 能 问答 、 机 器 翻译 等 领域 都 在 飞速 发 展 。 下 面 我 们 梳理 一 些 自 
然 语言 处 理 近期 热点 和 全 球 热点 的 情况 。 

1 . 文本 理解 与 推理 : 浅 层 分 析 向 深度 理解 迈进 

谷歌 等 公司 已 经 推出 了 以 阅读 理解 作为 深入 探索 自然 语言 理解 的 平台 。 

文本 理解 和 推理 是 自然 语言 处 理 的 重要 部 分 ,现在 的 机 器 软件 已 经 可 以 根据 文本 的 上 下 文 来 分 
辨 代词 等 指示 词 ， 这 是 文本 理解 与 推理 从 浅 层 分 析 向 深度 理解 迈进 的 重要 一 步 。 

2 . 对 话机 器 人 : 实用 化 、 场 景 化 

从 最 初 2012 年 到 2014 年 的 语音 助手 , 到 2014 年 起 逐渐 出 现 的 聊天 机 器 人 微软 小 冰 、 百 度 
小 度 ， 再 到 2016 年 哈尔滨 工业 大 学 SCIR 的 笨 笨 ， 对 话机 器 人 越 来 越 智能 。 最 初 的 语音 助手 可 以 
听 得 到 但 是 听 不 懂 , 之 后 的 对 话机 器 人 可 以 听 得 懂 但 是 实用 性 却 不 强 , 现在 对 话机 器 人 更 多 的 是 和 
场景 结合 ， 即 在 特定 场景 做 有 用 的 人 机 对 话 。 

3 . NLP+ 行 业 : 与 专业 领域 深度 结合 

银行 、 电 器 、 医 药 、 司 法 、 教 育 等 领域 对 自然 语言 处 理 的 需求 都 非常 多 。 自 然 语言 处 理 与 各 行 
各 业 的 结合 越 来 越 紧密 ， 专 业 化 的 服务 趋势 逐渐 增强 。 可 以 预测 ， 自 然 语言 处 理 首先 会 在 信息 准备 
充分 并 且 服 务 方式 本 身 就 是 知识 和 信息 的 领域 产生 突破 ， 例 如 医疗 、 金 融 、 教 育 和 司法 领域 。 

4 . 学 习 模式 : 先 验 语言 知识 与 深度 学 习 结 合 

自然 语言 处 理 中 学 习 模式 有 一 个 较为 明显 的 变化 。 在 浅 层 到 深层 的 学 习 模式 中 , 浅 层 学 习 是 分 
步骤 的 ， 深 度 学 习 的 方法 贯穿 在 浅 层 分 析 的 每 个 步骤 中 ， 由 各 个 步骤 连接 而 成 。 而 直接 的 深度 学 习 
则 是 直接 从 端 到 端 ， 人 为 贡献 的 知识 在 深度 学 习 中 所 占 的 比重 大 幅度 减 小 。 但 如 何 将 深度 学 习 应 用 
于 自然 语言 处 理 需要 进行 更 多 的 研究 和 探索 , 针对 不 同 任务 的 不 同 字 词 表 示 , 将 先 验 知识 和 深度 学 
习 相 结合 是 未 来 的 一 个 发 展 趋势 。 

5 . 文本 情感 分 析 : 事实 性 文本 到 情感 文本 


之 前 的 研究 主要 是 新 闻 领域 的 事实 性 文本 , 现在 情感 文本 分 析 更 受 重视 , 并 且 在 商业 和 政府 与 
情 上 可 以 得 到 很 好 的 应 用 。 例 如 ，2017 年 新 浪 微 与 情 和 哈尔滨 工业 大 学 推出 “情绪 地 图 ”， 网 民 
可 以 登录 新 浪 与 情 官 方 网 站 查询 任何 关键 词 的 “情绪 地 图 ”， 这 是 语义 情绪 分 析 在 与 情 分 析 产 业 上 
的 首次 正式 应 用 。 
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1.9 总 结 


C= 


在 本 章 中 , 为 了 建立 本 书 的 基本 框架 , 我 们 首先 解释 了 为 什么 我 们 需要 NLP, 然后 讨论 了 NLP 
的 各 类 任务 。 对 于 NLP 的 来 龙 去 脉 ， 我 们 又 从 理性 主义 和 经 验 主义 到 当前 深层 学 习 浪 潮 的 三 次 自 
然 语言 处 理 浪潮 出 发 , 回顾 了 自然 语言 处 理 领域 几 十 年 来 的 历史 发 展 情况 ,以 便 从 历史 发 展 中 提炼 
出 有 助 于 指导 未 来 方向 的 见解 。 接着 , 我 们 对 于 当前 NLP 中 深度 学 习 的 局 限 性 进行 了 解读 。 最 后 ， 
我 们 对 于 NLP 中 的 应 用 场景 和 前 景 做 了 简 述 。 

首先 ， 我 们 通过 一 个 日 常生 活 中 常见 的 寻找 小 吃 店 位 置 的 例子 开启 了 解读 NLP 的 篇 章 ， 并 对 
NLP 主要 的 工作 任务 进行 了 初步 划分 ， 包 括 标记 化 、 词 义 消 歧 、 词 性 标注 、 实 体 命名 识别 、 句 子 
或 概要 分 类 、 文 本 生成 、 问 答 系统 、 机 器 翻译 等 。 

其 次 , 通过 对 于 NLP 发 展 的 三 个 阶段 的 分 析 ， 我 们 知道 当前 的 NLP 深度 学 习 技术 是 从 前 两 波 
发 展 起 来 的 一 种 NLP 技术 概念 和 范式 上 的 革新 。 这 场 革新 的 关键 支撑 包括 通过 嵌入 对 语言 实体 ( 子 
单词 、 单 词 、 短 语 、 句 子 、 段 落 、 文 档 等 ) 的 分 布 式 表示 、 嵌 入 引起 的 语义 概括 、 语 言 的 大 跨度 深 
层 序列 建 模 、 能 够 从 低 到 高 有 效 表达 语言 水 平 的 层次 网 络 以 及 端 到 端的 深度 学 习 方法 ， 以 共同 解决 
许多 NLP 任务 中 的 问题 。 在 深度 学 习 浪潮 出 现 之 前 ， 这 些 都 是 不 可 能 实现 的 ， 这 不 仅 是 因为 之 前 
的 两 次 发 展 浪潮 缺乏 大 数据 和 强大 的 计算 能 力 ,更 重要 的 是 在 于 近年 来 深度 学 习 范 式 出 现 了 之 前 缺 
少 的 正确 框架 。 

接着 ,我 们 对 于 当前 NLP 领域 深度 学 习 方面 的 局 限 性 进行 了 解读 ， 并 给 出 了 局 限 性 存在 的 成 
因 和 简要 的 解决 之 道 。 

最 后 ， 我 们 对 于 NLP 的 常见 应 用 领域 进行 了 说 明 并 给 出 了 NLP 的 发 展 前 景 。 

总 之 ， 深 度 学 习 开 创 了 一 个 新 的 世界 ， 使 得 NLP 比 过 去 任何 时 候 都 更 具有 活力 。 深 度 学 习 不 
仅 提供 了 一 个 强大 的 建 模 框架 , 用 于 表示 计算 机 系统 中 人 类 自然 语言 的 认 知 能 力 , 更 重要 的 是 , 它 
已 经 在 NLP 的 许多 关键 应 用 领域 创造 了 卓越 的 实际 效果 。 在 本 书 的 其 余 章节 中 ， 将 提供 使 用 深度 
学 习 框架 开发 (具体 利用 TensorFlow 工具 ) 的 NLP 技术 的 详细 描述 ， 同 时 也 希望 本 书 能 够 对 NLP 
领域 的 人 员 有 一 些 帮 助 ， 以 便 使 得 NLP 领域 有 更 多 突破 性 成 果 的 出 现 。 接 下 来 的 一 章 ， 我 们 将 介 
绍 深度 学 习 基础 。 


2.1 深度 学 习 介绍 


具有 机 器 学 习 基础 的 朋友 可 能 都 知道 , 机 器 学 习 实际 上 是 一 个 寻找 最 优 模型 的 过 程 。 深 度 学 习 
是 机 器 学 习 的 一 个 扩展 领域 , 其 概念 源 自 于 科学 家 对 人 工 网 络 长 期 研究 的 积累 , 深度 学 习 的 基本 结 
构 其 实 也 是 深度 神经 网 络 。 在 深度 学 习 下 实现 的 算法 集合 与 人 类 大 脑 中 的 刺激 和 神经 元 之 问 的 关系 
具有 相似 之 处 。 深 度 学 习 在 计算 机 视觉 、 语 言 翻译 、 语 音 识别 、 图 像 识 别 等 方面 具有 广泛 的 应 用 。 
这 些 算 法 集 很 简单 ， 既 可 以 在 有 监督 的 情况 下 学 习 ， 也 可 以 在 无 监督 的 情况 下 学 习 。 

大 多 数 的 深度 学 习 算 法 都 是 基于 人 工 神经 网 络 的 理念 ,数据 丰富 ， 计 算 资源 充足 ， 使 得 目前 世 
界 上 对 这 种 算法 的 训练 变 得 更 加 容易 、 深 度 学 习 模型 的 性 能 得 到 不 断 提 升 。 对 于 这 一 点 ， 我 们 可 以 
在 图 2-1 中 看 到 更 好 的 表示 。 


数据 数量 


图 2-1 基于 神经 网 络 的 深度 学 习 算法 和 传统 学 习 算法 效果 图 
这 里 深度 学 习 中 的 “深度 ”是 指 人 工 神经 网 络 结构 的 深度 ， 而 “学 习 ” 是 指 通过 人 工 神 经 网 络 
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本 身 进 行 学 习 。 图 2-2 给 出 了 深度 和 浅 度 网 络 之 间 差 异 的 展示 ， 以 及 为 什么 “深度 学 习 ” 会 受到 大 
家 的 热 捧 。 


-> A(0,x) ->h(0,x) 


深度 网 络 浅 度 网 络 
2-2 ”深度 和 浅 度 网 络 示意 图 


通过 利用 深度 神经 网 络 ， 我 们 能 够 从 未 标记 和 非 结构 化 数据 (如 图 像 ( 像 素数 据 )、 文 档 ( 文 
本 数据 或 文件 (音频 、 视 频数 据 ) ) 中 寻找 出 潜在 的 结构 情况 〈 或 特征 学 习 ) 。 实 际 上 ， 虽 然 深 
度 学 习 中 的 人 工 神经 网 络 和 模型 在 本 质 上 具有 相似 的 结构 , 但 这 并 不 意味 着 两 个 人 工 神经 网 络 的 组 
合 在 利用 数据 进行 训练 时 ， 我 们 获得 的 表现 〈 或 效果 ) 与 深度 神经 网 络 就 相似 。 其 中 一 个 重要 的 原 
因 是 ， 深 度 神 经 网 络 与 普通 人 工 神经 网 络 之 间 所 使 用 的 反 向 传播 方式 不 同 。 

接 下 来 ， 我 们 先 介绍 一 下 深度 学 习 的 演变 过 程 ， 然 后 从 神经 网 络 开始 详细 解读 。 


2.2 ”深度 学 习 演变 简 述 


2.2.1 深度 学 习 早期 


1943 年 ， 心 理学 家 麦 卡 洛克 和 数学 罗 辑 学 家 皮 效 发 表 了 论文 《神经 活动 中 内 在 思想 的 逻辑 演 
算 》， 提 出 了 MP 模型 。MP 模型 是 模仿 神经 元 的 结构 和 工作 原理 构建 的 一 个 基于 神经 网 络 的 数学 
模型 ， 本 质 上 是 一 种 “模拟 人 类 大 脑 ”的 神经 元 模型 。MP 模型 作为 人 工 神经 网 络 的 起 源 ， 开 创 了 
人 工 神 经 网 络 的 新 时 代 ， 也 葛 定 了 神经 网 络 模型 的 基础 。 

1949 年 ， 加 拿 大 著名 心理 学 家 唐纳德 。 海 布 在 《行为 的 组 织 》 中 提出 了 一 种 基于 无 监督 学 习 
的 规则 一 一 海 布 学 习 规则 (Hebb Rule) 。 海 布 学 习 规则 模仿 人 类 认 知 世界 的 过 程 建立 一 种 “网 络 
模型 ”， 该 网 络 模型 针对 训练 数据 集 进行 大 量 的 训练 并 提取 训练 集 的 统计 特征 ， 然 后 按照 样本 的 相 
似 程度 进行 分 类 ， 把 相互 之 间 联 系 密切 的 样本 分 为 一 类 ， 这 样 就 把 样本 分 成 了 若干 类 。 海 布 学 习 规 
则 与 “条 件 反射 ”机 理 一 致 ， 为 后 面 的 神经 网 络 学 习 算法 黄 定 了 基础 ， 具 有 重大 的 历史 意义 。 

20 世纪 50 年 代 末 ， 在 MP 模型 和 海 布 学 习 规 则 的 研究 基础 上 ， 美 国 科学 家 罗 森 布 拉 特 发 现 了 
一 种 类 似 于 人 类 学 习 过 程 的 学 习 算法 一 一 感知 机 学 习 ， 并 于 1958 年 正式 提出 了 由 两 层 神经 元 组 成 


第 2 章 深度 学 习 基础 | 17 


的 神经 网 络 ， 称 之 为 “感知 器 ”。 感 知 器 本 质 上 是 一 种 线性 模型 ， 可 以 对 输入 的 训练 集 数 据 进行 二 
分 类 , 且 能 够 在 训练 集中 自动 更 新 权重 值 。 感 知 器 的 提出 吸引 了 大 量 科学 家 对 人 工 神经 网 络 研究 的 
兴趣 ， 对 神经 网 络 的 发 展 具有 里 程 碑 式 的 意义 。 

随 着 研究 的 深入 ， 在 1969 年 ， “AI 之 父 ” 马 文 。 明 斯 基 和 LOGO 语言 的 创始 人 西蒙 * 派 珀 
特 共同 编写 了 一 本 图 书 《 感 知 器 》， 在 书 中 他 们 证 明了 单 层 感知 器 无 法 解决 线性 不 可 分 问题 (例如 
异 或 问题 ) 。 由 于 这 个 致命 的 缺陷 以 及 没有 及 时 推广 感知 器 到 多 层 神经 网 络 中 , 在 20 世纪 70 年 代 
人 工 神经 网 络 进入 了 第 一 个 寒冬 期 ， 人 们 对 神经 网 络 的 研究 也 停滞 了 将 近 20 年 。 


2.2.2 深度 学 习 的 发 展 


1982 年 ， 著 名 物理 学 家 约翰 。 霍 普 菲 尔 德 发 明了 Hopfield 神经 网 络 。Hopfield 神经 网 络 是 一 
种 结合 存储 系统 和 二 元 系统 的 循环 神经 网 络 。Hopfield 网 络 也 可 以 模拟 人 类 的 记忆 ,根据 激活 函数 
的 选取 不 同 ， 有 连续 型 和 离散 型 两 种 类 型 ， 分 别 用 于 优化 计算 和 联想 记忆 。 由 于 容易 陷入 局 部 最 小 
值 的 缺陷 ， 该 算法 并 未 在 当时 引起 很 大 的 龙 动 。 

直到 1986 年 ， 深 度 学 习 之 父 杰 弗 里 。 辛 顿 提出 了 一 种 适用 于 多 层 感知 器 的 反 向 传播 算法 一 一 
BP 算法 。BP 算法 在 传统 神经 网 络 正 向 传播 的 基础 上 ,增加 了 误差 的 反 向 传播 过 程 。 反 向 传播 过 程 
不 断 地 调整 神经 元 之 间 的 权重 值 和 阔 值 , 直到 输出 的 误差 减 小 到 允许 的 范围 之 内 , 或 达到 预先 设 定 
的 训练 次 数 为 止 。BP 算法 完美 地 解决 了 非 线性 分 类 问题 ， 让 人 工 神经 网 络 再 次 引起 了 人 们 广泛 的 
关注 。 

20 世纪 80 年 代 计算 机 的 硬件 水 平 有 限 ， 比 如 运算 能 力 跟 不 上 ， 导 致 当 神经 网 络 的 规模 增 大 时 
使 用 BP 算法 出 现 “ 梯 度 消 失 ” 的 问题 。 这 使 得 BP 算法 的 发 展 受到 了 很 大 的 限制 。 再 加 上 20 世纪 
90 年 代 中 期 ， 以 SVM 为 代表 的 其 他 浅 层 机 器 学 习 算法 的 提出 ， 及 其 在 分 类 、 回 归 问 题 上 均 取 得 了 
很 好 的 效果 ， 其 原理 又 明显 不 同 于 神经 网 络 模型 ， 所 以 人 工 神经 网 络 的 发 展 再 次 进入 了 瓶颈 期 。 


2.2.3 ”深度 学 习 的 爆发 


2006 年 ， 杰 弗 里 。 辛 顿 以 及 他 的 学 生 鲁 斯 兰 。 萨 拉 赫 丁 诺 夫 正式 提出 了 深度 学 习 的 概念 。 他 
们 在 世界 项 级 学 术 期 刊 《科学 》 发 表 的 一 篇 文章 中 详细 地 给 出 了 “梯度 消失 ”问题 的 解决 方案 一 一 
通过 无 监督 的 学 习 方 法 逐 层 训练 算法 ,再 使 用 有 监督 的 反 向 传播 算法 进行 调 优 。 该 深度 学 习 方法 的 
提出 , 立即 在 学 术 圈 引起 了 巨大 的 反响 ， 以 斯 坦 福 大 学 、 多 伦 多 大 学 为 代表 的 众多 世界 知名 高 校 纷 
纷 投入 巨大 的 人 力 、 财 力 进行 深度 学 习 领 域 的 相关 研究 ， 而 后 又 迅速 蔓延 到 工业 界 中 。 

2012 年 ， 在 著名 的 ImageNet 图 像 识 别 大 赛 中 ， 杰 弗 里 。 辛 顿 领导 的 小 组 采用 深度 学 习 模型 
AlexNet 一 举 夺冠 。AlexNet 采用 ReLU 激活 函数 ， 从 根本 上 解决 了 梯度 消失 问题 ， 并 采用 GPU 极 
大 地 提高 了 模型 的 运算 速度 。 同 年 ， 由 斯 坦 福 大 学 的 吴 恩 达 教授 和 世界 顶尖 计算 机 专家 Jeff Dean 
共同 主导 的 深度 神经 网 络 一 一 DNN 技术 在 图 像 识 别 领域 取得 了 惊人 的 成 绩 , 在 ImageNet 评测 中 成 
功 地 把 错误 率 从 26% 降 低 到 了 15%。 深 度 学 习 算 法 在 世界 大 赛 中 脱颖而出 ， 再 一 次 吸引 了 学 术 界 
和 工业 界 对 深度 学 习 领 域 的 关注 。 
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随 着 深度 学 习 技术 的 不 断 进步 以 及 数据 处 理 能 力 的 不 断 提 升 ，2014 年 ，Facebook 基于 深度 学 
习 技术 的 DeepFace 项 目 ， 在 人 脸 识别 方面 的 准确 率 已 经 能 达到 97% 以 上 ， 跟 人 类 识别 的 准确 率 几 
乎 没有 差别 。 这 样 的 结果 也 再 一 次 证 明了 深度 学 习 算法 在 图 像 识别 方面 的 一 骑 绝 尘 。 

2016 年 ， 随 着 谷歌 公司 基于 深度 学 习 开 发 的 AlphaGo 以 4:1 的 比分 战胜 了 国际 顶尖 围棋 高 手 
李 世 石 ， 深 度 学 习 的 热度 一 时 无 两 。 后 来 ，AlphaGo 又 接连 和 众多 世界 级 围棋 高 手 过 招 ， 均 取得 了 
完胜 。 这 也 证 明了 在 围棋 界 ， 基 于 深度 学 习 技 术 的 机 器 人 已 经 超越 了 人 类 。 

2017 年 ， 基 于 强化 学 习 算 法 的 AlphaGo 升级 版 AlphaGo Zero 横 空 出 世 。 其 采用 “从 零 开 始 ” 
“无 师 自 通 ”的 学 习 模式 ， 以 100:0 的 比分 轻而易举 打败 了 之 前 的 AlphaGo。 除 了 围棋 ， 它 还 精通 
国际 象棋 等 其 他 棋 类 游戏 ， 可 以 说 是 真正 的 棋 类 “天 才 ”。 此 外 在 这 一 年 ， 深 度 学 习 的 相关 算法 在 
医疗 、 金 融 、 艺 术 、 无 人 驾驶 等 多 个 领域 均 取得 了 显著 的 成 果 。 所 以 ， 也 有 专家 把 2017 年 看 作 是 
深度 学 习 甚至 是 人 工 智 能 发 展 最 为 突飞猛进 的 一 年 。 


2.3 神经 网 络 介绍 


神经 网 络 这 个 词 ， 其 实 是 一 个 非常 泛 的 概念 ， 有 两 个 类 别 : 生物 神经 网 络 和 人 工 神经 网 络 。 生 
物 神 经 网 络 是 研究 生物 学 的 ， 一 般 是 指 生物 的 大 脑 神 经 元 、 细 胞 、 触 点 等 组 成 的 网 络 ， 用 于 产生 生 
物 的 意识 、 帮 助 生物 进行 思考 和 行动 。 人 工 神 经 网 络 (Artificial Neural Networks，ANN ) 有 时 也 称 
为 神经 网 络 (NN) 或 连接 模型 (Connection Model) ， 它 是 一 种 模仿 动物 神经 网 络 的 行为 特征 ， 进 
行 分 布 式 并 行 信息 处 理 的 算法 数学 模型 。 这 种 网 络 依靠 系统 的 复杂 程度 , 通过 调整 内 部 大 量 节点 之 
间 相 互 连 接 的 关系 ,从 而 达到 处 理 信息 的 目的 。 人 工 神 经 网 络 是 一 种 应 用 类 似 于 大 脑 神经 突 触 联接 
的 结构 进行 信息 处 理 的 数学 模型 。 在 工程 与 学 术 界 也 常 直接 简称 为 “神经 网 络 ”或 类 神经 网 络 。 所 
以 ， 我 们 有 必要 先 简要 介绍 一 下 生物 神经 网 络 中 的 神经 元 模型 。 


神经 元 


对 于 神经 元 的 研究 由 来 已 入，1904 年 生物 学 家 就 已 经 知晓 了 神经 元 的 组 成 结构 。 一 个 神经 元 
通常 具有 多 个 树 突 ， 主要 用 来 接受 传 入 信息 ; 而 轴 突 只 有 一 条 ， 轴 突 尾 端 有 许多 轴 突 末梢 可 以 给 其 
他 多 个 神经 元 传递 信息 。 轴 突 末梢 跟 其 他 神经 元 的 树 突 产生 连接 ， 从 而 传递 信号 。 这 个 连接 的 位 置 
在 生物 学 上 叫 作 “ 突 触 ”。 神 经 元 的 基本 功能 是 通过 接受 、 整 合 、 传 导 和 输出 信息 实现 信息 交换 。 
这 样 一 来 ， 神 经 元 按照 用 途 可 以 分 为 三 种 : 输入 神经 、 传 出 神经 和 连 体 神经 。 人 脑 中 的 神经 元 形状 
如 图 2-3 所 示 。 
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树 突 转 记 未 梢 


细胞 核 轴 突 


图 2-3 人 脑 中 的 神经 元 形状 图 


2.4 神经 网 络 的 基本 结构 


神经 网 络 背 后 的 原理 源 自 于 一 些 基 本 元 素 组 成 的 集合 , 如 人工 神 经 元 或 感知 器 (Perceptron ) ， 
这 些 元 素 最 早 是 由 弗兰克 。 罗 森 布 拉 特 (Frank Rosenblatt) 在 20 世纪 50 年 代 开 发 的 。 它 们 有 几 个 
二 进 制 输入 〈0 或 1) ，xiyx2,…wxtn， 如 果 这 些 输入 的 总 和 大 于 激活 电位 (等 同 于 偏差 ) ， 则 产生 单 
个 二 进 制 的 输出 。 每 当 超过 激活 电位 时 ， 神 经 元 被 称 为 “激活 ”， 并 表现 为 一 个 阶 跃 函数 (step 
function) 。 发 射 信号 的 神经 元 将 信号 传递 给 与 其 树 突 相连 的 其 他 神经 元 ， 如 果 超 过 激活 电位 ， 树 
突 就 会 激活 信号 , 从 而 产生 级 联 效应 , 如 图 2-4 所 示 , 其 实 这 也 是 早期 的 单 层 神经 网 络 (感知 器 ) 。 
条 


Xo output 


和 
图 2-4 神经 元 样 例 示意 图 
由 于 并 非 所 有 输入 都 具有 相同 的 重要 性 ， 因 此 每 个 输入 x; 都 被 分 配 了 自己 的 权重 值 ， 允 许 模 
型 为 某 些 输入 指定 更 高 的 权重 值 。 因 此 ， 若 加 权 和 大 于 激活 电位 或 偏差 ， 则 输出 为 1， 即 可 以 给 出 
输出 的 结果 ， 有 具体 如 下 : 
output = Yjwjxj + Bias 《2 
实际 上 ， 阶 跃 函数 的 跳跃 性 质 使 得 它 具 有 不 连续 、 不 光滑 、 不 可 导 等 特点 ， 如 果 利 用 这 种 简单 
形式 的 函数 ， 我 们 很 难 达到 理想 的 效果 ， 如 图 2-5 所 示 。 因 此 ， 在 实际 应 用 中 ， 我 们 通常 不 会 直接 
采用 阶 跃 函数 来 作为 激活 函数 ,我 们 需要 对 其 进行 两 处 修改 ， 以 使 其 表现 得 更 可 预测 ， 即 权重 值 和 
偏差 的 微小 变化 仅 导致 输出 的 微小 变化 ， 这 两 处 具体 如 下 : 
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图 2-5 阶 跃 函数 示意 图 


(1) 输入 可 以 取 0~1 之 间 的 任何 值 ， 而 不 是 二 进 制 (0 或 1) ， 
(2) 为 了 使 输出 在 给 定 的 输入 x,x2,…,xw、 权 重 值 wj,w2,…., ww 和 偏差 bp 下 更 平稳 地 工作 ， 


我 们 使 用 以 下 Sigmoid 函数 〈 见 图 2-6): 


化 可 


都 可 


o(xi,wi) = 这 和 


1 
1+exp(—Zjxjwj-b) 


图 2-6 Sigmoid 函数 
指数 函数 (或 0) 的 平滑 度 意味 着 权重 值 和 偏差 的 微小 变化 将 引起 神经 元 输出 的 微小 变化 〈 变 
[能 是 权重 值 和 偏差 变化 的 线性 函数 ) 。 
除了 通常 的 Sigmoid 函数 外 ,更 常用 的 其 他 非 线性 函数 还 包括 以 下 几 个 函数 , 它们 中 的 每 一 个 
[能 具有 类 似 或 不 同 的 输出 范围 ， 因 此 可 以 相应 地 使 用 。 
ReLU: 线性 整流 函数 (Rectified Linear Unit，ReLU) ， 又 称 修正 线性 单元 ， 是 一 种 人 工 神 经 


网 络 中 常用 的 激活 函数 〈Activation Function) ， 通 常 指 代 以 斜坡 函数 及 其 变种 为 代表 的 非 线性 函 


数 。 


这 将 使 激活 保持 在 0 位 ， 使 用 以 下 函数 计算 : 
2Z;=f%) = max(0,xj) (2.3) 


其 中 , 坟 是 第 j 个 输入 值 ，zj 是 经 过 ReLU 函数 了 处 理 过 的 相应 输出 值 。ReLU 函数 的 图 形 如 图 


2-7 所 示 ， 对 于 所 有 x 三 0， 函 数值 为 0; 对 于 所 有 x> 0， 函 数 线性 斜率 为 1。 
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图 2-7 ReLU 函数 


ReLU 经 常 面临 着 “死亡 ”的 问题 ， 特 别 是 当 学 习 率 被 设置 为 更 高 的 数值 时 ， 因 为 这 会 触发 不 
允许 激活 特定 神经 元 的 权重 值 更 新 ， 从 而 使 该 神经 元 的 梯度 永远 为 零 。 ReLU 提供 的 另 一 个 风险 
是 激活 函数 的 爆炸 ， 因 为 输入 值 w 本 身 就 是 输出 。ReLU 也 存在 不 少 优点 ， 例 如 在 x 低 于 0 的 情况 
下 引入 稀 朴 性 ， 引 起 稀疏 表示 ， 并 且 当 ReLU 不 变 时 返回 梯度 ， 它 会 导致 更 快 的 学 习 ， 伴 随 着 梯度 
消失 的 可 能 性 会 降低 。 

下 面 给 出 其 他 几 个 常见 的 函数 ， 这 些 函数 能 够 使 我 们 很 容易 对 梯度 下 降 进 行 训练 ， 具 体 如 下 : 


@ LReLU(Leaky ReLU ): 通过 为 x 小 于 0 的 值 引入 略微 碱 小 的 儿 率 ( 约 0.01 ) 来 减轻 ReLU 
死亡 的 问题 ，LReLU 确实 提供 了 很 多 成 功 的 场景 ， 尽 管 有 时 也 会 出 错 。 

@ ELU (指数 线性 单位 ) : 它们 提供 负 值 ， 通 过 将 附近 的 梯度 移动 到 单位 自然 梯度 ， 将 平 
均 单 位 激活 推 至 接近 零 ， 从 而 加 快 学 习 过 程 。 有 关 ELU 更 详细 的 解释 ， 请 参阅 
Diork-AmgeClevert 的 原始 论文 ， 网 址 为 https://arxiv.org/abs/1511.07289。 

@@ softmax: 也 被 称 为 归 一 化 指数 函数 ， 它 转换 (0,1 ) 范围 内 的 一 组 给 定 实 值 ， 使 得 组 合 和 
为 1。softmax 函数 表示 如 下 : 

a(2)j = e** /Phie (2.4) 

这 里 ;六 三 王 因 sr 区 


与 哺乳 动物 大 脑 一 样 ， 单 个 神经 元 也 是 分 层 组 织 的 ， 在 一 层 内 与 下 一 层 相连 ， 形 成 一 个 ANN 
或 者 说 人 工 神经 网 络 或 多 层 感知 器 (MLP) 。 这 样 ， 整 个 网 络 的 复杂 性 就 是 基于 这 些 元 素 和 连接 
相 邻 层 的 数量 情况 。 

输入 和 输出 之 间 的 层 称 为 隐藏 层 ， 层 之 间 的 连接 密度 和 类 型 是 结构 (也 叫 配 置 )。 例如， 一 个 
完全 连接 的 结构 将 工 层 的 所 有 神经 元 连接 到 L+1 层 的 所 有 神经 元 。 若 要 具有 更 明显 的 结构 ， 我 们 
只 能 将 一 个 局 部 邻 域 连接 到 下 一 层 。 图 2-8 显示 了 两 个 具有 密集 连接 的 隐藏 层 。 
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隐藏 层 


输出 层 


2-8 神经 网 络 架 构 示 例 图 


2.5 ”两 层 神经 网 络 (多 层 感知 器 ) 


2.5.1 简 述 


两 层 神经 网 络 是 本 文 的 重点 , 因为 正 是 从 两 层 结构 为 起 点 神经 网 络 才 开始 了 大 范围 的 推广 与 使 

用 。 

大 家 知道 ， 单 层 神经 网 络 无 法 解决 异 或 问题 ， 但 是 当 增 加 一 个 计算 层 以 后 ， 两 层 神经 网 络 不 仅 
可 以 解决 异 或 问题 ,而且 具 有 非常 好 的 非 线 性 分 类 效果 。 不 过 , 两 层 神经 网 络 的 计算 则 是 一 个 问题 ， 
因为 没有 一 个 较 好 的 解法 。 

1986 年 ，Rumelhar 和 Hinton 等 人 提出 了 反 向 传播 (Backpropagation，BP) 算法 ， 解 决 了 两 层 
神经 网 络 所 需要 的 复杂 计算 量 的 问题 ， 从 而 带动 了 业界 使 用 两 层 神经 网 络 研究 的 热潮 。 目 前 ,大 量 
讲解 神经 网 络 的 教材 之 内 容 基本 都 是 以 介绍 两 层 〈 带 一 个 隐藏 层 ) 神经 网 络 为 重点 。 

当时 的 Hinton 还 很 年 轻 ，30 年 以 后 ， 正 是 他 重新 定义 了 神经 网 络 ， 带 来 了 神经 网 络 复苏 的 又 
一 波 发 展 浪潮 。 


2.5.2 ”两 层 神经 网 络 结构 


两 层 神经 网 络 除了 包含 一 个 输入 层 和 一 个 输出 层 以 外 ,还 增加 了 一 个 中 间 层 。 此 时 ， 中 间 层 和 
输出 层 都 是 计算 层 。 我 们 扩展 上 节 的 单 层 神经 网 络 ， 在 右边 新 加 一 个 层次 。 

现在 ， 我 们 的 权重 值 矩 阵 增 加 到 了 两 个 ， 我 们 用 上 标 来 区 分 不 同 层次 之 间 的 变量 。 

例如 ，ay 代 表 第 y 层 中 的 第 x 个 节点 。z1,z2 变 成 了 a?,a2。 图 2-9 给 出 了 a?,a2 的 计算 公式 。 
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中 间 必 的 计算 公式 区 
qm=f (al- wyt+ay- what+ay- wa) 


2__ 1 1 1 1 1 1 
2=f (a Wl2.)+ a2"Wl22)+a3 Wl2.s)) 


图 2-9 两 层 神经 网 络 〈 中 间 层 计算 ) 
计算 最 终 输 出 z 的 方式 是 利用 了 中 间 层 的 a?, 和 第 二 个 权 值 矩 阵 计算 得 到 的 ,如 图 2-10 所 示 。 


输出 层 的 计算 公式 。 全 


Z=f( at"Wii.y)+ q2-W(12)) 
图 2-10 ”两 层 神经 网 络 ( 输 出 层 计 算 ) 
假设 我 们 的 预测 目标 是 一 个 向 量 ， 那 么 与 前 面 类 似 ， 只 需要 在 “输出 层 ” 再 增加 节点 即 可 。 


2.6 多 层 神 经 网 络 (深度 学 习 ) 
2.6.1 简 述 
人 工 神经 网 络 在 被 人 据 弃 的 10 年 中 ， 有 几 个 学 者 仍然 在 坚持 研究 ， 其 中 的 典型 代表 就 是 加 全 


大 多 伦 多 大 学 的 Geoffery Hinton 教授 。 
2006 年 ，Hinton 在 《Scierce》 和 相关 期 刊 上 发 表 了 论文 ， 首 次 提出 了 “深度 信念 网 络 ” 的 概 


24 | TensorFlow 与 自然 语言 处 理应 用 


念 。 与 传统 的 训练 方式 不 同 ，“ 深 度 信念 网 络 ” 有 一 个 “ 预 训 练 ” (Pre-Training) 的 过 程 ， 可 以 
方便 地 让 神经 网 络 中 的 权重 值 找到 一 个 接近 最 优 解 的 值 ， 之 后 再 使 用 “微调 ” (Fine-Tuning) 技术 
来 对 整个 网 络 进行 优化 训练 。 这 两 个 技术 的 运用 大 幅度 减少 了 训练 多 层 神 经 网 络 的 时 间 。 他 给 多 层 
神经 网 络 相 关 的 学 习 方 法 赋予 了 一 个 新 名 词 一 一 “深度 学 习 ”。 

很 快 ， 深 度 学 习 在 语音 识别 领域 窑 露 头角 。 接 着 ，2012 年 ， 深 度 学 习 技 术 又 在 图 像 识 别 领 域 
大 展 拳脚 。Hinton 与 他 的 学 生 在 ImageNet 竞赛 中 用 多 层 的 卷 积 神经 网 络 成 功 地 对 包含 一 千 类 别 的 
一 百 万 张 图 片 进行 了 训练 ， 取 得 了 分 类 错误 率 15% 的 好 成 绩 ， 这 个 成 绩 比 第 二 名 高 了 近 11 个 百 分 
点 ， 这 充分 证 明了 多 层 神 经 网 络 识 别 效果 的 优越 性 。 

在 这 之 后 ， 关 于 深度 神经 网 络 的 研究 与 应 用 不 断 涌现 。 

关于 CNN (Conventional Neural Network, 卷 积 神经 网 络 ) 与 RNN (Recurrent Neural Network， 
循环 神经 网 络 ) 及 其 变 体 LSTM 的 架构 ， 我 们 会 在 后 面 的 章节 中 进行 单独 解读 ， 这 里 不 做 过 多 阔 
释 。 


2.6.2 ”多 层 神 经 网 络 结构 


我 们 延续 两 层 神 经 网 络 的 方式 来 设计 一 个 多 层 神经 网 络 。 
在 两 层 神 经 网 络 的 输出 层 后 面 ,继续 添加 层次 。 原 来 的 输出 层 变 成 中 间 层 ,新 加 的 层次 成 为 新 
的 输出 层 ， 可 以 得 到 图 2-11。 


图 2-11 多 层 神 经 网 络 


依照 这 样 的 方式 不 断 添加 , 我 们 可 以 得 到 更 多 层 的 多 层 神经 网 络 。 公 式 推 导 的 话 其 实 跟 两 层 神 
经 网 络 类 似 ， 使 用 矩阵 运算 的 话 就 仅仅 是 加 一 个 公式 而 已 。 


2.7 ”编码 器 -解码 器 网 络 


编码 器 -解码 器 (Encoder-Decoder) 网 络 使 用 一 个 网 络 来 创建 输入 的 内 部 表示 ， 或 者 对 其 进行 
“编码 ”， 并 且 该 表示 用 作 另 一 个 网 络 的 输入 以 产生 输出 。 这 有 助 于 超越 输入 的 分 类 。 最 终 输 出 可 
以 是 相同 的 模 态 ， 即 语言 翻译 ， 或 基于 概念 的 不 同 模 态 ， 例 如 图 像 的 文本 标记 。 作 为 参考 ， 可 以 阅 
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读 谷 歌 团 队 发 表 的 论文 “使 用 神经 网 络 进行 序列 学 习 ” (https://papers.nips.cc/paper/5346-sequence 
-to-sequence-learning-with-neural-networks.pdf) 。 

编码 器 -解码 器 网 络 其 实 可 以 看 作 一 个 解决 问题 的 框架 ， 主 要 解决 seq2seq 类 问题 ，Sequence 
(序列 ) 在 这 里 可 以 理解 为 一 个 字符 串 序列 ， 当 我 们 在 给 定 一 个 字符 串 序列 后 ,希望 得 到 与 之 对 应 
的 另 一 个 字符 串 序列 ， 比 如 问答 系统 、 翻 译 系统 。 

编码 器 -解码 器 网 络 的 流程 可 以 理解 为 “编码 一 存储 一 解码 ”这 一 流程 ， 可 以 用 人 脑 流程 来 类 
比 。 我 们 先 看 到 源 Sequence， 将 其 读 一 遍 ， 然 后 在 我 们 大 脑 当中 就 记 住 了 这 个 源 Sequence， 并 且 
存在 大 脑 的 某 一 个 位 置 上 ， 形 成 我 们 自己 的 记忆 (对 应 后 面 的 Context) ， 然 后 我 们 再 经 过 思考 ， 
将 这 个 大 脑 里 的 东西 转变 成 输出 ， 写 下 来 。 我 们 大 脑 读 入 的 过 程 叫 作 编 码 器 (Encoder) ， 即 将 输 
入 的 东西 变 成 我 们 自己 的 记忆 ， 放 在 大 脑 当 中 ， 而 这 个 记忆 可 以 叫 作 Context， 然 后 我 们 再 根据 这 
个 Context 转化 成 答案 写 下 来 ， 这 个 写 的 过 程 叫 作 解 码 器 (Decoder) 。 

整个 模型 可 以 用 图 2-12 表示 。 


Encoder 六 一 ”语义 编码 c } 


9eoe 


图 2-12 编码 器 -解码 器 (Encoder-Decoder) 网 络 架构 


2.8 随机 梯度 下 降 


几乎 所 有 优化 问题 的 解决 方案 都 是 梯度 下 降 算 法 。 它 是 一 种 迭代 算法 , 通过 随后 更 新 函数 的 参 
数 来 最 小 化 损失 函数 。 

从 图 2-13 中 可 以 看 到 ， 我 们 首先 把 函数 想象 成 一 种 山谷 ， 想 象 一 个 球 滚 下 山谷 斜坡 的 情形 。 
日 常生 活 经 验 告诉 我 们 ， 球 最 终 会 滚 到 谷底 。 也 许 我 们 可 以 用 这 个 方法 求 出 损失 函数 的 最 小 值 。 

我 们 这 里 使 用 的 函数 依赖 于 两 个 变量 : v1 和 v2。 这 可 能 是 显而易见 的 ， 因 为 我 们 的 损失 函数 
看 起 来 像 前 面 的 那个 。 为 了 达到 这 样 一 个 平滑 的 损失 函数 ， 我 们 取 二 次 损失 : 


Gy = i 


26 | TensorFlow 与 自然 语言 处 理应 用 


175 
150 
125 
100 
075 
050 
025 


图 2-13 球 滚 下 斜坡 示意 图 


同样 , 我 们 应 该 注意 到 二 次 损失 函数 只 是 一 种 方法 ,其 实 还 有 许多 其 他 方法 来 定义 损失 。 但 不 
管 选择 哪 种 方法 ， 最 终 ， 我 们 选择 不 同 损失 函数 的 目的 是 为 了 得 到 : 


(1) 对 权重 值 的 平滑 偏 导 数 。 
(2) 一 个 良好 的 凸 曲线 ， 可 以 达到 全 局 最 小 值 。 然 而 ， 在 寻找 全 局 最 小 值 时 ， 还 有 许多 其 他 
因素 也 在 发 挥 作 用 。 


我 们 随机 选择 一 个 〈 假 想 的 ) 球 的 起 点 ， 然 后 模拟 球 在 向 下 滚动 到 山谷 底部 时 的 运动 。 与 之 类 
比 的 情景 中 , 假设 我 们 初始 化 网 络 的 权重 值 , 或 者 一 般 来 说 , 在 曲线 上 的 某 个 任意 点 上 初始 化 函数 
的 参数 就 像 在 斜坡 的 任何 一 点 上 放 一 个 球 ) ， 然 后 检查 附近 的 斜率 (导数 〉。 

我 们 知道 ， 由 于 重力 的 作用 ， 球 会 朝 着 最 大 坡度 的 方向 下 落 。 同 样 ， 在 该 点 沿 导数 方向 移动 权 
重 值 ， 并 根据 以 下 规则 更 新 权重 值 : 

设 J(0w) = 成 本 作为 权重 值 的 函数 , w = 网 络 参数 (v1 和 v2), wi= 初 始 权重 值 集 ( 随 机 初始 化 ) 。 

Wupdate = Wi — nd] (w)/dw 

这 里 ，dJ(w)/dw 为 权重 值 w 对 .Jow) 的 偏 导数 ，7 是 学 习 率 (Leaming Rate) 。 

学 习 率 更 多 的 是 一 个 超 参数 , 这 里 虽然 没有 固定 的 方法 来 找到 最 合适 的 学 习 率 , 但 是 我 们 总 是 
可 以 通过 批量 损失 来 找到 它 。 

一 种 方法 是 看 到 损失 并 分 析 损 失 的 模式 。 一 般 来 说 , 较 差 的 学 习 率 会 导致 小 批量 的 不 稳定 损失 。 
它 〈 损 失 ) 可 以 递归 地 上 升 和 下 降 ， 而 不 需要 稳定 。 

图 2-14 给 出 了 一 个 更 直观 的 解释 。 
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4 H 
1 Large :Small 
: learning Rate : Learning Rate 


图 2-14 小 型 和 大 型 学 习 率 影响 的 示意 图 


在 图 2-14 中 ， 有 两 种 情况 : 情景 1， 小 的 学 习 速 率 ; 情景 2， 大 的 学 习 速率 。 我 们 的 目标 是 为 
了 达到 图 2-14 中 的 最 小 值 ， 所 以 必须 达到 谷底 〈 就 像 图 2-13 中 球 的 情况 那样 ) 。 学 习 率 则 与 球 滚 
下 山 时 的 跳跃 幅度 有 关 。 

首先 考虑 情景 1 (图 2-14 中 的 左 侧 部 分 ) ， 我 们 在 其 中 进行 小 的 跳跃 ， 逐 渐 继 续 向 下 滚动 ， 
慢 慢 地 ,最 终 达 到 最 小 值 ， 而 球 有 可 能 卡 在 路 上 的 一 些小 缝隙 中 , 并且 由 于 无 法 进行 大 跳跃 而 无 法 
逃脱 它 。 

在 情景 2〈 图 的 右 侧 部 分 ) 中 ， 与 曲线 的 斜率 相 比 ， 学 习 速 率 更 大 。 这 是 一 个 次 优 的 策略 ， 实 
际 上 可 能 将 我 们 从 山 洛 中 驱逐 出 去 , 在 某 些 情况 下 , 这 可 能 是 一 个 良好 的 开端 ， 可 以 摆脱 局 部 极 小 
的 范围 ， 但 如 果 我 们 跳 过 全 局 最 小 值 ， 就 会 让 人 对 其 感到 失望 。 

在 图 2-14 中 ， 我 们 实现 了 局 部 最 小 值 ， 但 这 只 是 一 个 例子 。 这 意味 着 权重 值 会 停留 在 局 部 最 
小 值 上 而 错过 全 局 最 小 值 。 梯度 下 降 或 随机 梯度 下 降 不 保证 能 够 收敛 到 神经 网 络 的 全 局 最 小 值 ( 假 
设 隐藏 单元 不 是 线性 的 ) ， 因 为 损失 函数 是 非 凸 性 的 。 理 想 情况 是 阶 跃 ( 步 长 ) 继续 变化 并 且 拥有 
更 具 适 应 性 的 特点 ， 在 起 初时 可 以 略 高 ， 然 后 在 一 段 时 间 内 逐渐 减 小 ， 直 到 收敛 为 止 。 


2.9 反 向 传播 


理解 反 向 传播 《Backpropagation ) 算法 可 能 需要 一 些 时 间 ， 读 者 也 可 以 跳 过 本 节 内 容 ， 因 为 很 
多 软件 库 都 具有 自动 区 分 和 执行 整个 训练 过 程 的 能 力 。 但 是 , 理解 这 个 算法 肯定 会 让 你 深入 了 解 与 
深度 学 习 相关 的 问题 〈 学 习 问 题 、 绥 慢 学 习 、 梯 度 爆 炸 、 梯 度 下 降 ) 。 

让 我 们 首先 看 一 张 典型 的 神经 网 络 结构 图 ， 如 图 2-15 所 示 。 
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2-15 ”神经 网 络 结构 图 


图 2-15 是 一 个 包含 了 输入 层 L1、 隐藏 层 L2 和 输出 层 L3 的 简单 神经 网 络 , 它 的 处 理 流程 为 根 
据 输 入 层 的 input 以 及 相应 的 权重 值 和 配置 (图 中 黑色 带 箭 头 的 边 ) ， 通 过 隐藏 层 的 加 工 ， 最 终 将 
结果 映射 到 输出 层 得 到 结果 的 输出 。 模 型 可 以 抽象 表示 为 y = f(x), x,y 分 别 表示 输入 和 输出 向 量 。 

根据 神经 网 络 的 处 理 流程 ， 我 们 如 果 要 得 到 输出 y， 就 必须 知道 图 2-15 中 每 条 边 的 参数 值 ， 这 
也 是 神经 网 络 中 最 重要 的 部 分 。 在 神经 网 络 中 是 通过 迭代 的 方法 来 计算 这 些 参数 的 , 具体 来 讲 就 是 ， 
首先 初始 化 这 些 参数 ， 通 过 神经 网 络 的 前 向 传导 过 程 来 计算 得 到 输出 y， 但 这 些 值 与 真实 值 存在 着 
误差 ,我 们 假设 累计 误差 函数 为 err(x)， 然 后 利用 梯度 方法 极 小 化 err(x) 来 更 新 参数 ， 直 至 误差 值 
达到 符合 要 求 而 停止 计算 。 在 更 新 参数 这 一 过 程 中 ， 我 们 就 用 到 了 著名 的 反 向 传播 算法 。 

为 了 更 好 地 去 说 明神 经 网 络 的 传播 算法 ， 我 们 这 里 取 图 2-15 中 的 一 条 路 径 来 做 说 明 ， 但 这 不 
失 一 般 性 ， 假 设 路 径 如 图 2-16 所 示 。 


A 六 、 
BO 
Ne ve 
图 2-16 神经 网 络 传播 路 径 示例 


图 2-16 中 的 边 表 示 偏 导数 ， 如 a = (90Y/0X)。 
想 要 知道 输入 X 对 输出 Z 的 影响 ， 我 们 可 以 用 偏 导数 (0Z/0X) = (02Z/0Y): (90Y/0X)， 即 : 


(0Z/0X) =a6+ae+aw+B6+pe+B+Yy6+ye+YC 《2 


我 们 如 果 直 接 使 用 链 式 法 则 进行 求 导 就 会 遇 到 一 个 问题 ， 当 路 径 数量 增加 时 ， 式 〈2.5) 中 的 
子 项 目 数 会 呈 指 数 增长 ， 所 以 这 时 我 们 需要 把 上 式 右 侧 部 分 进行 合并 , 合并 后 ， 我 们 只 需要 进行 一 
次 乘法 就 可 以 获得 所 需要 的 结果 ， 这 样 大 幅度 提升 了 模型 的 运算 效率 ， 合 并 后 的 式 子 如 下 : 


(02/0X) =(ec+B+7(GG+e+O (2.6) 


接 下 来 ， 我 们 解决 式 〈2.6) 的 实现 问题 。 根 据 计 算 方向 的 不 同 ， 可 以 分 为 正 向 微分 与 反 向 微 
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分 。 我 们 先 看 针对 图 2-16 的 正 向 微分 算法 ， 如 图 2-17 所 示 。 


Forward-Mode Differentiation (六 ) 


a 6 
Ps 一 “全 
-上 e_>| 荆 |-<o ~ Ox 
OX C e+B+T6+e+C 


Ne 过 


2-17 ” 正 向 微分 算法 


可 以 看 到 , 正 向 微分 算法 根据 路 径 的 传播 方向 , 依次 计算 路 径 中 的 各 结 点 对 输入 XX 的 偏 导数 ， 
结果 中 保留 了 输入 对 各 结 点 的 影响 。 
下 面 ， 我 们 看 一 下 反 向 微分 算法 〈 见 图 2-18) 。 


Reverse-Mode Differentiation ( 综 ) 
OO 


六、 
DZ € DZ 
-一 CO 一 > | 一 =0 一 CO 一 > 一 
(ot a+)S+etd) a C 57 


图 2-18 反 向 微分 算法 
可 以 看 到 ， 该 算法 从 后 向 前 进行 计算 ， 结 果 中 保留 了 路 径 中 各 结 点 对 输出 的 影响 。 
这 里 就 有 一 个 问题 了 ， 既 然 正 向 反 向 都 可 以 实现 式 〈2.6) 的 计算 ， 那 么 我 们 应 该 选择 哪个 算 
法 来 实现 呢 ? 答案 是 反 向 微分 算法 ， 理 由 如 下 : 
首先 我 们 看 一 个 计算 式 子 e = (a 十 b) * (b 十 1) 的 图 模型 ( 见 图 2-19) 。 


图 2-19 图 模型 计算 示例 


其 中 ，c,d 表示 中 间 结 果 ， 边 的 方向 表示 一 个 结 点 是 另 一 个 结 点 的 输入 。 
假设 输入 变量 a=2、b=1， 图 2-19 中 各 结 点 的 偏 导 计算 结果 如 图 2-20 所 示 。 
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图 2-20 利用 正 向 微分 算法 得 到 各 结 点 的 偏 导 计 算 结果 
利用 正 向 微分 算法 ， 我 们 得 到 关于 变量 b 的 偏 导 计算 结果 如 图 2-21 所 示 。 


图 2-21 利用 正 向 微分 算法 得 到 变量 b 的 偏 导 计算 结果 
利用 反 向 微分 算法 ， 我 们 得 到 的 偏 导 计算 结果 如 图 2-22 所 示 。 


Oe Oe 
Qa Ob - 
图 2-22 ”利用 反 向 微分 算法 得 到 的 偏 导 计算 结果 


由 此 可 见 , 反 向 微分 算法 保留 了 所 有 变量 (包括 中 间 变 量 ) 对 结果 e 的 影响 。 若 e 为 误差 函数 ， 
则 对 图 进行 一 次 计算 ， 可 以 得 出 所 有 结 点 对 e 的 影响 ， 也 就 是 梯度 值 ， 下 一 步 就 可 以 利用 这 些 梯度 
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值 来 更 新 边 的 权重 值 了 ; 而 正 向 微分 算法 得 到 的 结果 是 只 保留 了 一 个 输入 变量 对 误差 e 的 影响 , 显 
然 ， 想 要 获得 多 个 变量 对 e 的 影响 ， 我 们 就 需要 进行 多 次 计算 。 所 以 正 向 微分 算法 在 效率 上 明显 不 
如 反 向 微分 ， 这 也 是 我 们 选择 反 向 微分 算法 的 原因 。 


2.10 ”总 结 


IO 一 口 


在 本 章 , 我 们 首先 对 深度 学 习 的 理念 和 产生 的 历史 背景 做 了 说 明 , 认识 到 深度 学 习 在 人 工 智能 
当中 起 到 非常 重要 的 作用 。 

其 次 , 我 们 为 了 对 深度 学 习 的 内 部 原理 进行 解读 , 介绍 了 其 中 的 关键 部 分 一 一 神经 元 模型 。 通 
过 神经 元 模型 的 解读 ， 我 们 对 深度 学 习 的 基本 结构 有 了 认 知 。 

接着 ,我 们 从 单 层 神经 网 络 、 多 层 神 经 网 络 和 Encoder-Decoder 网 络 等 方面 对 于 深度 学 习 的 内 
部 网 络 结构 进行 了 更 深层 次 的 解析 , 对 其 内 部 逻辑 和 机 制 运 行情 况 有 了 大 致 清晰 的 认 知 。 因 为 现实 
中 的 问题 一 般 都 非常 复杂 , 怎样 选择 一 个 高 效 的 优化 算法 便 成 为 我 们 着 重 关注 的 方法 , 所 以 我 们 就 
介绍 了 随机 梯度 下 降 算法 。 

最 后 ， 我 们 介绍 了 著名 的 反 向 传播 算法 (BP) ， 从 数学 的 角度 做 简要 解读 ， 使 我 们 认识 到 反 
向 传播 算法 的 魅力 所 在 ， 为 我 们 进一步 学 习 深度 学 习 或 者 说 神经 网 络 模型 商定 了 良好 的 基础 。 

下 一 章 ， 我 们 将 介绍 本 书 所 使 用 的 技术 框架 : TensorFlow。 


TensorFlow 


在 本 章 中 ， 首 先 我 们 会 对 TensorFlow 的 概念 、 主 要 特征 、 安 装 及 其 三 个 组 成 部 分 进行 详细 解 
读 ， 梳 理 出 这 些 核心 概念 之 间 的 关系 。 其 次 ， 在 了 解 了 一 些 核心 概念 之 后 ， 我 们 会 对 TensorFlow 
的 工作 原理 进行 深度 解析 ， 将 TensorFlow 平台 的 “client 一 master 一 worker” 架 构 底 层 中 涉及 到 的 
内 在 逻辑 和 技术 路 径 进行 详细 解读 , 以 便 我 们 对 TensorFlow 框架 的 运行 机 制 有 更 多 的 认 知 。 接 着 ， 
我 们 会 利用 示例 对 TensorFlow 客户 端 进行 专门 解读 ， 读 者 会 在 示例 中 感受 TensorFlow 客户 端 内 在 
的 运行 情况 。 然 后 ， 我 们 会 对 TensorFlow 中 的 常见 元 素 逐 一 详解 ， 并 做 一 些 对 比分 析 。 最 后 ， 我 
们 对 TensorFlow 的 变量 作用 域 机 制 做 一 些 介绍 , 并 实现 一 个 三 层 神经 网 络 对 MNIST 数字 数据 集 进 
行 分 类 的 例子 。 

本 章 中 涉及 的 完整 代码 ， 请 查看 文件 夹 ch3 下 的 代码 文件 : 3_tensorflow_introduction.ipynb。 


3.1 TensorFlow 概念 解读 


由 于 深度 学 习 研究 的 最 终 目的 是 为 了 解决 我 们 现实 世界 中 直到 的 困难 , 因此 在 学 术 界 不 断 探索 
新 理念 、 新 模型 的 同时 ， 业 界 优秀 的 从 业 人 员 也 在 加 速 发 布 各 类 可 实现 的 技术 框架 ,这 样 深度 学 习 
框架 就 在 学 术 界 和 工业 界 的 相互 推动 下 得 以 迅速 发 展 起 来 .这 里 给 出 谷歌 公司 经 过 长 期 的 研究 和 尝 
试 ， 在 实践 的 基础 上 推出 的 目前 最 优秀 的 深度 学 习 框架 之 一 一 一 TensorFlow。TensorFlow 最 初 是 
由 谷歌 公司 的 大 脑 小 组 〈 隶 属于 谷歌 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 的 ， 是 一 个 采 
用 数据 流 图 (Data Flow Graph) 的 开源 分 布 式 数值 计算 框架 ， 主 要 用 于 减轻 实现 神经 网 络 细节 层面 的 
工作 量 (例如 , 计算 神经 网 络 权重 值 的 导数 ) 。TensorFlow 通过 使 用 统一 计算 设备 架构 (Compute Unified 
Device Architecture，CUDA) 对 数值 进行 有 效 计算 ， 该 架构 是 由 NVIDIA 公司 引入 的 并 行 计算 平台 。 

TensorFlow 主要 是 由 计算 图 、 张 量 以 及 模型 会 话 三 个 部 分 组 成 的 。TensorFlow 中 的 计算 可 以 
表示 为 一 个 计算 图 (Computation Graph) ， 或 者 称 作 有 向 图 (Directed Graph) ， 图 中 的 每 一 个 数 
学 运算 或 操作 (Operation) 都 将 被 视 为 一 个 节点 (Node), 而 节点 与 节点 之 间 的 连接 被 称 为 边 (Edge)， 
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图 中 的 这 些 边 (Edge) 则 表示 在 节点 间 相 互 关联 的 流动 (Flow ) 的 多 维 数据 数组 , 即 张 量 (Tensor) 。 
这 个 计算 图 表述 了 数据 的 计算 流程 , 它 负责 维护 和 更 新 状态 , 我 们 可 以 对 计算 图 中 的 分 支 进行 条 件 
控制 或 循环 操作 。 简单 说 , 我 们 可 以 用 张 量 表示 数据 , 用 计算 图 搭建 神经 网 络 , 用 会 话 执行 计算 图 ， 
在 优化 线 上 的 权重 值 ( 参 数 ) 后 得 到 我 们 的 模型 。 

这 里 ， 我 们 还 可 以 使 用 多 种 语言 对 计算 图 进行 设计 。TensorFlow 这 样 灵活 的 架构 让 我 们 可 以 
在 多 种 平台 上 展开 计算 ,例如 台式 计算 机 中 的 一 个 或 多 个 CPU (或 GPU) 、 服 务 器 、 移动 设备 等 。 
作为 优秀 的 技术 架构 ，TensorFlow 在 机 器 学 习 方面 解决 了 以 下 几 个 核心 问题 : 


(1) 使 用 TensorFlow 工具 可 以 利用 很 简洁 的 语言 来 实现 各 类 复杂 算法 模型 ， 这 样 一 来 我们 
就 可 以 从 日 常 中 极为 消耗 精力 的 编码 、 调 试 工作 中 解放 出 来 。 

(2) 由 于 TensorFlow 内 核 执行 系统 使 用 的 是 CH+， 因 此 在 执行 效率 方面 非常 高 效 。 

(3) TensorFlow 极 佳 的 分 层 架 构 使 得 模型 能 够 很 方便 地 运行 在 异 构 设备 之 上 。 

(4) TensorFlow 包含 了 TensorBoard 等 极 好 的 配套 工具 ， 且 第 三 方 社 区 也 在 不 断 贡 献 很 多 实 
用 的 辅助 工具 ， 例 如 TFLeam 等 ， 这 些 工 具 使 得 代码 变 得 更 加 简洁 、 数 据 处 理工 作 更 便捷 。 


如 果 读者 感 兴趣 ， 可 以 参考 下 面 的 网 址 以 查阅 关于 TensorFlow 方面 的 内 容 。 


TensorFlow 官网 : tensorflow.google.cn。 

TensorFlow 的 应 用 程序 编程 接口 (API) : tensorflow.google.cn/api_docs/python 。 
GitHub 网 址 : github.com/tensorflow。 

模型 仓库 : github.comytensorflow/models。 


3.2 ”TensorFlow 主要 特征 


3.2.1 ”自动 求 微分 


基于 梯度 的 机 器 学 习 算 法 会 受益 于 TensorFlow 自动 求 微 分 的 能 力 。 在 使 用 TensorFlow 时 , 我 
们 只 需要 定义 预测 模型 的 结构 ， 将 这 个 结构 和 目标 函数 (Objective Function) 结合 在 一 起 ， 并 添加 
数据 ，TensorFlow 将 自动 为 我 们 计算 相关 的 微分 导数 。 计 算 某 个 变量 相对 于 其 他 变量 的 导数 仅仅 
是 通过 扩展 你 的 计算 图 来 完成 的 ， 所 以 我 们 可 以 一 直 很 清晰 地 看 到 系统 中 究竟 在 发 生 什么 。 


3.2.2 ”多 语言 支持 


TensorFlow 有 一 个 合理 的 C++ 使 用 界面 ， 也 有 一 个 易 用 的 Python 使 用 界面 来 构建 和 执行 我 们 
的 计算 图 (Computation Graph) 。 我 们 可 以 直接 编写 Python/C++ 程 序 ， 也 可 以 用 交互 式 的 让 ython 
界面 来 调用 TensorFlow 以 尝试 一 些 想法 , 它 可 以 帮 有 我 们 将 笔记 、 代码、 可 视 化 等 有 条 理 地 归 置 好 。 
当然 这 仅仅 是 一 个 起 点 ， 它 同时 也 在 促使 我 们 创造 自己 最 喜欢 的 语言 界面 ， 比 如 Go、Java、Lua、 
JavaScript、R 等 。 
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3.2.3 高度 的 灵活 性 


TensorFlow 不 是 一 个 严格 意义 上 的 “神经 网 络 ” 库 。 如 果 我 们 能 够 将 计算 表示 为 一 个 数据 流 
图 ， 那 么 就 可 以 使 用 TensorFlow 来 构建 图 和 描写 驱动 计算 的 内 部 循环 。TensorFlow 提供 了 有 用 的 
工具 来 帮助 你 组 装 “ 子 图 ”常用 于 神经 网 络 ) ， 当 然 用 户 也 可 以 自己 在 TensorFlow 基础 上 编写 
自己 的 “上 层 库 ”。 定 义 顺 手 好 用 的 新 复合 操作 和 编写 一 个 Python 函数 一 样 容易 ， 而 且 也 不 用 担 
心性 能 损耗 。 当 然 万 一 我 们 发 现 找 不 到 想 要 的 底层 数据 操作 ， 我 们 也 可 以 自己 编写 一 点 C++ 代码 
来 丰富 底层 的 操作 。 


3.2.4 真正 的 可 移植 性 


TensorFlow 在 CPU 和 GPU 上 运行 ， 比 如 说 可 以 运行 在 台式 机 、 服 务 器 、 移 动 设备 等 上 面 。 
在 没有 特殊 硬件 的 前 提 下 ，TensorFlow 能 够 帮 我 们 在 自己 的 笔记 本 上 运行 一 下 机 器 学 习 、 深 度 学 
习 模 型 。TensorFlow 也 可 以 帮助 我 们 将 自己 的 训练 模型 在 多 个 CPU 上 进行 规模 化 的 运算 ， 同 时 不 
必修 改 代码 。TensorFlow 还 可 以 帮助 我 们 将 自己 训练 好 的 模型 作为 产品 的 一 部 分 部 署 到 手机 App 
里 。TensorFlow 更 可 以 帮助 我 们 将 自己 的 模型 作为 云端 服务 运行 在 自己 的 服务 器 上 ， 或 者 运行 在 
Docker 容器 里 。 


3.2.5 ”将 科研 和 产品 联系 在 一 起 


过 去 ， 要 将 科研 中 的 机 器 学 习 想 法 用 到 产品 中 ， 需 要 大 量 的 代码 重 写 工作 。 现 在 ， 谷 歌 公司 的 
科学 家 用 TensorFlow 尝试 新 的 算法 ， 产 品 团队 则 用 TensorFlow 来 训练 和 使 用 计算 模型 ， 并 直接 提 
供给 在 线 用 户 。 使 用 TensorFlow 可 以 让 应 用 型 研究 者 将 想法 迅速 地 运用 到 产品 中 ， 也 可 以 让 学 术 
性 研究 者 更 直接 地 彼此 分 享 代码 ， 从 而 提高 科研 产 出 率 。 


3.2.6 性 能 最 优化 


例如 ， 现 在 你 有 一 个 带 有 32 个 CPU 内 核 、4 个 GPU 显卡 的 工作 站 ， 就 可 以 利用 TensorFlow 
将 工作 站 的 计算 潜能 全 部 发 挥 出 来 。TensorFlow 给 予 了 线程 、 队 列 、 异 步 操作 等 最 佳 的 支持 ， 能 
够 让 我 们 将 自己 手边 硬件 的 计算 潜能 全 部 发 挥 出 来 。 我 们 可 以 自由 地 将 TensorFlow 图 中 的 计算 元 
素 分 配 到 不 同 设备 上 ， 让 TensorFlow 帮 我 们 管理 好 这 些 不 同 的 副本 。 


3.3 TensorFlow 安装 


我 们 可 以 在 多 个 平台 上 安装 和 使 用 TensorFlow， 例 如 Linux、Mac OS 和 Windows。 当 然 , 我 
们 也 可 以 使 用 TensorFlow 最 新 的 GitHub 源 来 构建 和 安装 TensorFlow。 此 外 , 如 果 我 们 的 电脑 运行 
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的 是 Windows 系统 ， 那 么 比较 常用 的 是 通过 Anaconda 来 安装 TensorFlow。 
由 于 Python 3 附带 了 pip3 包 管 理 器 ， 它 是 用 于 安装 TensorFlow 的 程序 ， 因 此 如 果 我 们 使 用 的 
是 Python 的 这 个 版 本 ， 就 无 须 安装 pip。 为 简单 起 见 ， 在 本 节 中 将 展示 如 何 使 用 本 机 pip 安装 
TensorFlow。 下 面 给 出 在 Windows 系统 下 安装 TensorFlow 的 两 个 命令 。 启 动 一 个 “终端 ”程序 ， 
然后 在 该 “终端 ”中 执行 相应 的 pip3 install 命令 。 
(1) 要 安装 TensorFlow 的 CPU 版 本 ， 输 入 以 下 命令 : 


C:\> pip3 install --upgrade tensorflow 


(2) 要 安装 TensorFlow 的 GPU 版 本 ， 输 入 以 下 命令 : 
C:\> pip3 install --upgrade tensorflow-gpu 


在 Linux 方面 ,TensorFlow Python API 支 持 Python 2.7 和 Python 3.3+, 因此 我 们 需要 安装 Python 
才能 启动 TensorFlow 安装 。 我 们 必须 安装 Cuda Toolkit 7.5 和 cuDNN v5.1 + 才能 获得 GPU 支持 。 
笔者 使 用 的 是 Ubuntu 系统 ， 是 采用 pip3 的 命令 来 安装 TensorFlow 的 ， 更 多 信息 也 可 以 参考 
https://tensorflow.google.cn/install/source 上 的 说 明 。 


在 Linux 上 安装 TensorFlow 


这 里 将 给 出 如 何在 Ubuntu 14.04 或 更 高 版 本 上 安装 TensorFlow。 此 处 提供 的 说 明 可 能 也 适用 
于 Linux 其 他 版 本 ， 只 需 进行 少量 的 调整 即 可 。 

但 是 ， 在 继续 执行 正式 步骤 之 前 ， 我 们 需要 确定 在 平台 上 安装 哪个 TensorFlow， 我 们 可 以 在 
GPU 和 CPU 上 运行 数据 密集 型 张 量 应 用 程序 。 因 此 ， 应 该 选择 以 下 TensorFlow 两 种 版 本 中 的 一 
个 ， 在 我 们 的 平台 上 进行 安装 : 

@” 仅 支持 CPU 的 TensorFlow: 如 果 计 算 机 上 没有 安装 NVIDIA 等 GPU, 就 必须 使 用 此 版 本 

安装 并 开始 计算 。 这 个 很 简单 ， 可 以 在 5 到 10 分 钟 内 完成 。 

@ 支持 GPU 的 TensorFlow: 深度 学 习 应 用 程序 通常 需要 非常 高 的 计算 资源 ，TensorFlow 也 

不 例外 ， 我 们 通常 可 以 在 GPU 上 而 不 是 在 CPU 上 加 快 数据 计算 和 分 析 速 度 。 如 果 你 的 
计算 机 上 有 NVIDIAGPU 硬件 ， 你 应 该 安装 并 使 用 此 版 本 。 


根据 我 们 的 经 验 ， 即 使 计算 机 上 集成 了 NVIDIA GPU 硬件 ， 也 有 必要 安装 并 首先 尝试 仅 使 用 
CPU 的 版 本 ， 如 果 你 没有 体验 到 良好 的 性 能 ， 那 么 再 切换 到 GPU 来 进行 支持 。 
支持 GPU 的 TensorFlow 版 本 有 几 个 要 求 , 例 如 64 位 Linux、Python 2.7( 或 Python 3 的 3.3+)， 
NVIDIACUDA7.5 或 更 高 版 本 (Pascal GPU 需要 CUDA 8.0) 和 NVIDIA cuDNN v4.0 (最 小 ) 或 v5.1 
(推荐 ) 。 更 具体 地 说 ，TensorFlow 的 当前 开发 仅 支持 使 用 NVIDIA 工具 包 和 软件 的 GPU 计算 。 
因此 ， 必 须 在 Linux 计算 机 上 安装 以 下 软件 才能 使 得 预测 分 析 应 用 程序 获得 GPU 的 支持 : 


© Python 
© NVIDIA Driver 
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@ CUDA with compute capability >= 3.0 

@ CUDNN 

© TensorFlow 

1. 安装 Python 和 NVIDIA 驱动 程序 

在 不 同 的 平台 上 安装 Python 的 操作 相对 比较 简单 ， 这 里 不 再 歼 述 。 另 外 ， 假 设 你 的 计算 机 中 
已 经 安装 了 NVIDIA GPU。 

要 检查 一 下 你 的 计算 机 中 的 GPU 是 否 已 正确 安装 和 正常 工作 ， 请 在 终端 上 执行 以 下 命令 : 


$ lspci -nnk | grep -i nvidia 


由 于 预测 分 析 很 大 程度 上 依赖 于 机 器 学 习 和 深度 学 习 算 法 , 因此 请 确保 你 的 计算 机 上 安装 了 一 
些 基本 软件 包 ， 例 如 GCC 和 一 些 用 于 科学 计算 的 Python 软件 包 。 
只 需 在 终端 上 执行 如 下 命令 : 


sudo 
sudo 
sudo 


sudo 


DD 


sudo 


apt-get 
apt-get 
apt-get 
apt-get 
apt-get 


update 

install libglul-mesa libxi-dev libxmu-dev -y 
一 yes install build-essential 

install python-pip python-dev -y 

install python-numpy python-scipy -y 


现在 通过 wget 下 载 NVIDIA 驱动 程序 (不 要 忘记 为 你 的 计算 机 选择 正确 的 版 本 ) ， 并 以 silent 
模式 运行 脚本 : 


$ wget 


http://us.download.nvidia.com/XFree86/Linux-x86 64/367.44/NVIDIA-Linux-x86 64- 


367.44.run 


$ sudo chmod +x NVIDIA-Linux-x86_ 64-367.35.run 
$ ./NVIDIA-Linux-x86 64-367.35.run --silent 


一 些 GPU 显卡 ， 如 NVidia GTX 1080， 附 带 内 置 驱动 程序 。 因 此 ， 如 果 你 的 计算 机 具有 不 同 
于 GTX 1080 的 GPU， 就 必须 下 载 该 GPU 的 驱动 程序 。 
要 确保 驱动 程序 是 否 已 正确 安装 ， 请 在 终端 上 执行 以 下 命令 : 


$ nvidia-smi 


命令 的 结果 应 如 图 3-1 所 示 。 
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图 3-1 nvidia-smi 命令 的 输出 结果 


2. 安装 NVIDIA CUDA 


为 了 将 TensorFlow 与 NVIDIA GPU 配合 使 用 , 需要 安装 CUDA Toolkit 8.0 及 其 相关 的 NVIDIA 
驱动 程序 。CUDA 工具 包 包括 ;: 


@ ”GPU 加 速 库 ， 如 用 于 快速 傅 里 叶 变 换 的 cuFFT (FFT ) .。 
基本 线性 代数 子 程序 (BLAS ) 的 cuBLAS。 

稀 朴 矩阵 例 程 的 cuSPARSE。 

用 于 密集 和 稀疏 的 直接 求解 器 的 cuSOLVER。 

用 于 随机 数 生成 的 cuRAND， 用 于 图 像 的 NPP 和 视频 处 理 原 语 。 
NVIDIA 图 形 分 析 库 的 nvGRICH, 

推力 模板 并 行 算 法 和 数据 结构 专用 的 CUDA 数学 库 。 


对 于 Linux， 下 载 和 安装 所 需 的 包 : 
https://developer.nvidia.com/cuda-downloads 
使 用 的 wget 命令 如 下 : 


$ wget https://developer.nvidia.com/compute/cuda/8.0/Prod2/local_ 
installers/cuda 8.0.61 375.26 linux-run 

$ sudo chmod +x cuda 8.0.61 375.26 linux.run 

$ ./ cuda 8.0.61 375.26 linux.run --driver --silent 

$ ./ cuda 8.0.61 375.26 linux.run --toolkit --silent 

$ ./ cuda 8.0.61 375.26 linux.run --samples -silent 


另外 ， 确 保 你 已 经 将 CUDA 安装 路 径 添 加 到 LD_LIBRARY_PATH 环境 变量 中 : 


$ echo 'export LD LIBRARY PATH="$LD LIBRARY PATH:/usr/local/cuda/1ib64:/ 
usr/local/cuda/extras/CUPTI/1ib64"' >> ~/.bashrc 
$ echo 'export CUDA HOME=/usr/local/cuda' >> ~/.bashrc 


$ source ~/.bashrc 
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3. 安装 NVIDIA cuDNN v5.1+ 


安装 CUDA Toolkit 后 ,从 Linux 上 下 载 cuDNN v5.1 库 ,解压 缩 文 件 并 将 其 复制 到 CUDA Toolkit 
目录 (假设 在 / usr /local /cuda /中 ) : 


$ cd /usr/local 

$sudo mkdir cuda 

$ cd ~/Downloads/ 

$ wget http://developer?2.download.nvidia.com/compute/machine-learning/ 
cudnn/secure/v6/prod/8.0 20170427/cudnn-8.0-linux-x64-v6.0.tgz 

$ sudo tar -xvzf cudnn-8.0-linux-x64-v6.0.tgz 

$ cp cuda/lib64/* /usr/local/cuda/lib64/ 

$ cp cuda/include/cudnn.h /usr/local/cuda/include/ 


注意 ， 要 安装 cuDNN v5.1 库 ， 我 们 必须 在 https://developer.nvidia.com/accelerated-computing- 
developer 上 注册 加 速 计算 开发 程序 。 现 在 ， 当 安装 了 cuDNN v5.1 库 之 后 ， 请 确保 创建 了 
CUDA_HOME 环境 变量 。 


4. 安装 libcupti-dev 库 


最 后 ， 需 要 在 你 的 计算 机 上 安装 libcupti-dev 库 ， 这 是 提供 高 级 分 析 支 持 的 NVIDIA CUDA。 
要 安装 此 库 ， 请 执行 以 下 命令 : 


$ sudo apt-get install libcupti-dev 
5. 安装 TensorFlow 


有 关 如 何 为 CPU 安装 最 新 版 本 的 TensorFlow， 以 及 如 何 为 具有 NVIDIA 、cuDNN 和 CUDA 
计算 能 力 的 GPU 提供 支持 ， 请 参阅 下 面 的 部 分 。 可 以 在 计算 机 上 以 多 种 方式 安装 TensorFlow， 比 
如 使 用 virtualenv、pip、Docker 和 Anaconda。 这 里 使 用 pip 和 virtualenv 方式 。 (有 兴趣 的 读者 可 
以 尝试 使 用 Docker 和 Anaconda 安装 ， 详 见 https://tensorflow.google.cn/install/。) 


(1) 使 用 本 地 pip 安装 TensorFlow 
对 于 Python 2.7， 仅 支持 CPU 版 本 的 ， 具 体 如 下 : 


pip install tensorflow 

For Python 3.x and of course with only CPU support: 
pip3 install tensorflow 

For Python 2.7 and of course with GPU support: 

pip install tensorflow-gpu 

For Python 3.x and of course with GPU support: 


WW 妨 非 妨 非 妇 


pip3 install tensorflow-gpu 


(2) 使 用 virtualenv 安装 TensorFlow 
如 果 你 已 经 在 系统 上 安装 了 Python 2+( 或 3+) 和 pip( 或 pip3), 请 按照 以 下 步 又 安装 TensorFlow。 


台 创 建 virtualenv 环境 : 
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$ virtualenv --system-site-packages targetDirectory 
targetDirectory 表示 virtualenv 树 的 根 目录 。 默 认 情 况 下 ， 它 是 一 / tensorflow〔 也 可 以 选择 任何 
其 他 目录 ) 。 


@@ 按 如 下 方式 激活 virtualenv 环境 : 
$ source ~/tensorflow/bin/activate # bash, sh, ksh, or zsh 
$ source ~/tensorflow/bin/activate.csh # csh or tcsh 


如 果 命 令 在 步骤 2 中 执行 成 功 ， 那 么 在 “终端 ”程序 中 上 应 该 可 以 看 到 以 下 内 容 : 


(tensorflow)$ 


图 安装 TensorFlow。 
按照 以 下 命令 之 一 在 激活 的 virtualenv 环境 中 安装 TensorFlow。 
对 于 仅 支 持 CPU 的 Python 2.7， 请 使 用 以 下 命令 : 


(tensorflow)$ pip install --upgrade tensorflow 
对 于 仅 支 持 CPU 的 Python 3.x， 请 使 用 以 下 命令 : 
(tensorflow)$ pip3 install --upgrade tensorflow 
对 于 支持 GPU 的 Python 2.7， 请 使 用 以 下 命令 : 


(tensorflow)$ pip install --upgrade tensorflow-gpu 


| 


对 于 仅 支持 GPU 的 Python 3.x， 请 使 用 以 下 命令 : 
(tensorflow)$ pip3 install --upgrade tensorflow-gpu 


如 果 上 述 命令 成 功 ， 就 跳 过 步骤 5; 如 果 上 述 命 令 失 败 ， 请 执行 步骤 5。 此 外 ， 如 果 步 又 3 以 
某 种 方式 失败 ， 请 尝试 通过 执行 以 下 命令 以 在 激活 的 virtualenv 环境 中 安装 TensorFlow: 

# 对 于 python 2.7 (选择 具有 CPU 或 SPU 支持 的 适当 URL) : 

(tensorflow)$ pip install --upgrade TF_PYTHON_URL 


# 对 于 python 3 .x (选择 具有 CPU 或 GPU 支持 的 适当 URL) : 
(tensorflow)$ pip3 install --upgrade TF _ PYTHON URL 


@ 验 证 安装 。 
要 在 步骤 3 中 验证 安装 ， 必 须 激活 虚拟 环境 。 如 果 virtualenv 环境 当前 未 处 于 激活 状态 ， 请 执 
行 以 下 命令 之 一 : 


$ source ~/tensorflow/bin/activate # bash, sh, ksh, or zsh 


$ source ~/tensorflow/bin/activate.csh # csh or tcsh 


回 印 载 TensorFlow。 
要 印 载 TensorFlow， 只 需 删 除 创建 的 目录 树 即 可 。 例 如 : 
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$ rm -r targetDirectory 


6. 测试 安装 的 TensorFlow 


启动 一 个 Python 终端 (内 需 在 终端 上 输入 python 或 python3 ) ， 执 行 一 段 常见 的 “Hello, 
TensorFlow!” 程 序 ， 代 码 行 如 下 : 


>>> import tensorflow as tf 
>>> hello = tf.constant ("Hello, TensorFlow!") 
>>> sess=tf.Session() 


>>> print sess.run(hello) 


如 果 TensorFlow 安装 成 功 ， 我 们 将 看 到 输出 结果 为 “Hello, TensorFlow!”。 
3.4 TensorFlow 计算 图 


在 执行 TensorFlow 程序 时 ， 我 们 需要 构建 一 个 计算 图 ， 然 后 按照 计算 图 启动 一 个 会 话 ， 在 会 
话 中 完成 变量 赋值 、 计 算 等 操作 并 得 到 最 终结 果 。 换 句 话 说，TensorFlow 的 计算 图 可 以 划分 为 两 


@ ”构造 部 分 ， 包 含 计算 流 图 ， 用 于 构建 模型 。 

”执行 部 分 ， 通 过 会 话 ( Session ) 执行 图 中 的 计算 ， 用 于 提供 数据 并 获得 结果 。 

对 于 计算 图 的 构造 部 分 而 言 ， 我 们 又 可 以 分 为 两 部 分 : 

@ 创建 源 节 点 。 

@” 源 节点 的 输出 传递 给 其 他 节点 做 运算 操作 。 

这 里 , 更 吸引 我 们 的 是 , TensorFlow 会 在 C++ 引擎 上 执行 每 一 项 运算 操作 , 这 意味 着 在 Python 
中 也 不 会 执行 任何 乘法 或 加 法 ，Python 只 是 一 个 包装 器 。 从 根本 上 讲 ，TensorFlow C ++ 引 擎 包含 
以 下 两 方面 : 

@ 卷 积 、 最 大 池 化 、Sigmoid 等 操作 的 高 效 实现 。 

@ ”转发 模式 操作 的 导数 。 


计算 图 基本 上 类 似 于 数据 流 图 。 图 3-2 显示 了 一 个 简单 计算 的 计算 图 ， 用 于 计算 简单 的 等 式 ， 
如 ==dxce= (a+b) xc。 
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图 3-2 一 个 简单 的 执行 图 


在 图 3-2 中 ， 圆 圈 表 示 节 点 处 的 操作 ， 和 矩形 表示 整个 数据 计算 图 。 在 TensorFlow 的 实施 中 ， 
TensorFlow 计算 图 包含 以 下 内 容 : 


@ ”一 组 引 Operation 对 象 : 用 于 表示 要 执行 的 计算 单元 。 

@ tfTensor 对 象 : 用 于 表示 控制 操作 之 间 数 据 流 的 数据 单元 。 

使 用 TensorFlow 还 可 以 执行 延迟 操作 。 一 旦 在 计算 图 的 构建 阶段 编写 了 高 度 组 合 的 表达 式 ， 
我 们 仍然 可 以 在 会 话 的 运行 阶段 去 对 它们 求 值 。 从 技术 上 讲 ，TensorFlow 会 给 出 措施 并 以 有 效 的 
方式 按时 执行 。 例 如 ， 使 用 GPU 并 行 执行 代码 的 独立 部 分 ， 如 图 3-3 所 示 。 


图 3-3 TensorFlow 图 中 的 边 和 节点 将 在 CPU 或 GPU 等 设备 上 的 会 话 下 执行 
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3.5 ”TensorFlow 张 量 和 模型 会 话 


3.5.1 张 量 


在 TensorFlow 中 ， 张 量 (Tensor) 是 对 运算 结果 的 引用 ， 运 算 结 果 多 数 情况 下 是 以 数组 的 形 
式 存储 的 ， 与 numpy 中 的 数组 不 同 的 是 ， 张 量 还 具有 三 个 重要 属性 : 名 字 、 维 度 、 类 型 。 张 量 的 
名 字 是 张 量 的 唯一 标识 符 ， 我 们 通过 名 字 可 以 发 现 张 量 是 如 何 被 计算 出 来 的 。 例 如 “multiply:0” 
代表 的 是 计算 节点 “multiply” 的 第 1 个 输出 结果 ，“add:2” 代 表 的 是 计算 节点 “add” 的 第 3 个 
输出 结果 。 

TensorFlow 有 两 种 类 型 的 边 ， 或 者 说 张 量 (Tensor) 的 类 型 有 两 种 : 


@ 正常: 它们 承载 节点 之 间 的 数据 结构 。 来 自 一 个 节点 的 一 个 运算 或 操作 的 输出 变 为 另 一 
个 运算 或 操作 的 输入 。 连 接 两 个 节点 的 线 携带 这 些 数值 。 

@ ”特殊 : 此 边 不 携带 数值 ， 但 是 只 表示 两 个 节点 〈 比 如 和 和 立 ) 之 间 的 控制 依赖 关系 。 这 
意味 着 节点 立 只 有 在 和 中 的 运算 或 操作 已 经 执行 时 才 会 被 执行 。 


我 们 也 可 以 这 样 理解 ，TensorFlow 计算 图 中 的 每 个 节点 的 输入 输出 都 是 张 量 〈Tensor) ， 而 
连接 节点 的 边 〈《 有 向 线段 ) 就 是 Flow， 表 示 从 一 个 张 量 (Tensor) 状态 到 另 一 个 张 量 (Tensor) 
状态 。 我 们 在 编写 程序 时 ， 都 是 逐步 计算 的 ， 每 计算 完 一 步 便 能 够 获得 一 个 执行 结果 。 对 于 Tensor 
数据 类 型 而 言 , 虽然 我 们 可 以 事先 定义 或 者 根据 计算 图 的 结构 推断 得 到 , 但 是 有 一 类 特殊 的 边 中 并 
没有 数据 流动 ， 这 种 边 便 是 依赖 控制 (Control Dependencies) ， 其 作用 便 是 让 它 的 起 始 节点 执行 完 
之 后 再 去 执行 目标 节点 ， 这 样 一 来 我 们 就 可 以 使 用 边 进行 灵活 的 条 件 控制 了 。 比 如 ， 我 们 在 
TensorFlow 实施 中 定义 了 依赖 控制 关系 ， 便 可 以 在 其 他 独立 的 操作 之 问 强制 执行 排序 ， 以 作为 限 
制 使 用 内 存 最 高 峰值 的 一 种 方式 。 

在 TensorFlow 中 ， 一 个 张 量 基本 上 是 一 个 n 维 数 组 ， 下 面 让 我 们 通过 表 3-1 中 的 内 容 来 解读 
一 下 张 量 和 维 数 的 关系 。 


表 3-1 张 量 和 维 数 的 关系 


维 数 阶 名 称 示例 
0-D 0 标量 (Scalar) | 
1-D | 1 向 量 (Vector) [wn2al 
2D | 和 矩阵 | m=[[1.2.3].[4.5.6] 
3-D | 3 张 量 | 全 [[… 
E 属 
nD n 张 量 | T-{[... 


张 量 可 以 表示 0 阶 到 阶 的 数组 (列表 ) 。 这 里 ， 阶 是 张 量 的 维 数 。 第 0 阶 张 量 是 一 个 数 ， 也 
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就 是 标量 ;第 1 阶 张 量 是 一 个 一 维 数组 ， 也 就 是 向 量 ; 第 2 阶 张 量 是 一 个 二 维 数 组 ， 也 就 是 矩阵 ; 
第 n 阶 张 量 是 一 个 维 数组 。 


3.5.2 ”会话 


如 前 所 述 ，TensorFlow 中 的 会 话 〈Session) 用 来 执行 事先 定义 好 的 运算 ， 负 责 完成 多 个 计算 
设备 或 集群 分 布 式 节点 的 布置 和 数据 传输 节点 的 添加 , 并且 还 负责 将 子 图 分 配给 相应 的 执行 器 单元 
进行 运行 。 会 话 拥 有 并 管理 TensorFlow 程序 运行 时 的 所 有 资源 。 当 计算 完成 之 后 需要 关闭 会 话 来 
帮助 系统 回收 资源 ， 否 则 就 可 能 出 现 计算 资源 被 占用 的 问题 。 


3.6 ”TensorFlow 工作 原理 


TensorFlow 是 一 个 具有 “client 一 master 一 worker” 架 构 的 分 布 式 系统 。 在 TensorFlow 中 ， 参 

与 分 布 式 系统 的 所 有 节点 或 者 设备 被 统称 为 一 个 cluster (集群 ) ， 一 个 cluster 中 包含 多 个 server 

(服务 器 ) ， 每 个 server 去 执行 一 项 task 〈 任 务 ) ， 而 server 和 task 又 是 一 一 对 应 的 。 这 样 看 来 ， 
我 们 可 以 把 cluster 看 成 是 server 的 集合 ， 也 可 以 看 成 是 task 的 集合 。TensorFlow 为 每 个 task 又 增 
加 了 一 个 抽象 层 ， 将 一 系列 相似 的 task 集合 称 为 一 个 job 〈 工 作 ) 。 例 如 ， 我 们 在 PS 架构 中 ， 习 
惯 称 parameter server (参数 服务 器 ) 的 task 集合 为 ps, 而 把 执行 梯度 计算 的 task 集合 称 为 worker。 
因此 ，cluster 又 可 以 被 看 成 是 job 的 集合 ， 实 际 上 这 只 是 逻辑 上 的 意义 ， 我 们 还 需要 有 具体 看 一 下 这 
个 server 真正 做 的 是 什么 。 在 TensorFlow 中 ，job 用 name (字符 串 ) 标识 ，task 用 index (整数 索 
引 或 整数 下 标 ) 标 识 , cluster 中 的 每 个 task 都 可 以 用 job 的 name 加 上 task 的 index 来 作 唯一 标识 。 
在 分 布 式 系统 中 ， 一 般 情况 下 各 个 task 在 不 同 的 节点 或 者 设备 上 执行 。 

通常 情况 下 ， 客 户 端 (client) 通过 会 话 给 Session 接口 和 master 展开 通信 ， 且 将 触发 执行 的 请 
求 提交 给 master， 而 master 会 把 所 要 执行 的 任务 分 派 给 单个 或 多 个 worker 进程 ， 相 关 结 果 通 过 
master 返回 给 客户 端 。 这 里 ，worker 负责 计算 的 执行 ， 任 何 一 个 worker 进程 都 会 管理 和 使 用 计算 
机 上 的 计算 硬件 设备 资源 ， 比 如 一 块 或 者 多 块 CPU 和 GPU， 进 而 处 理 计算 子 图 (Subgraph) 的 运 
算 或 操作 过 程 。 

其 实 ，TensorFlow 的 架构 横向 扩展 是 很 灵活 的 。 在 单机 模式 的 多 数 情况 下 ，client、master 和 
worker 均 在 同一 个 进程 中 启动 ， 而 worker 进程 会 管理 本 机 上 所 有 的 计算 设备 资源 。 在 分 布 式 的 架 
构 中 ， 我 们 可 以 通过 远程 调用 的 方式 将 client、master 和 worker 连接 在 一 起 ， 且 任何 一 个 worker 
进程 各 自 监控 关联 执行 机 上 的 计算 设备 。 关 于 TensorFlow 的 单机 和 分 布 式 架构 如 图 3-4 所 示 。 
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义 上 看 ， 


单机 架构 模式 分 布 式 架构 模式 


a 


一 一 执行 了 7 


ES 本 本 革 
图 3-4 TensorFlow 的 单机 和 分 布 式 架构 示意 图 


在 创建 计算 图 之 后 ，TensorFlow 需要 以 分 布 式 方式 由 多 个 CPU (以 及 GPU， 如 果 可 用 ) 执行 
激活 的 会 话 。 通 常 ， 实 际 上 不 需要 明确 指定 是 使 用 CPU 还 是 GPU， 因 为 TensorFlow 可 以 选择 并 
使 用 其 中 一 个 。 默 认 情况 下 ， 将 选择 GPU 进行 尽 可 能 多 的 运算 ; 否则， 将 使 用 CPU。 因 此， 从 广 


以 下 是 TensorFlow 的 主要 组 件 : 


变量 (Variable ) : 用 于 包含 TensorFlow 会 话 之 间 权重 值 和 偏差 的 值 。 

张 量 (Tensor ) : 在 节点 之 间 传递 的 一 组 值 。 

占 位 符 (Placeholder ) : 用 于 在 程序 和 TensorFlow 图 之 间 发 送 数据 。 

会 话 (Session ) : 启动 会 话 时 ，TensorFlow 会 自动 计算 图 中 所 有 计算 的 梯度 ， 并 在 链 式 
规则 中 使 用 它们 。 实 际 上 ， 在 执行 图 形 时 会 调用 会 话 。 


从 技术 上 说 ， 我 们 要 编写 的 程序 可 以 被 视 为 客户 端 ， 而 客户 端 用 于 以 符号 方式 在 C/C + 或 
Python 中 创建 计算 图 ， 接 着 ， 我 们 的 代码 可 以 要 求 TensorFlow 执行 此 该 图 ， 请 参见 图 3-5 中 的 详 


细 信 息 。 


es 
运行 Session 


图 3-5 在 TensorFlow 分 布 式 架构 下 执行 代码 示意 图 


计算 图 有 助 于 在 具有 CPU 或 GPU 的 多 个 计算 节点 上 分 配 工作 负载 。 这 样 , 神经 网 络 等 同 于 复 
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合 函 数 ， 其 中 每 个 层 〈 输 入 层 、 隐 藏 层 或 输出 层 ) 可 以 表示 为 函数 。 现 在 想 要 了 解 在 张 量 上 执行 的 
运算 或 操作 ， 有 必要 探讨 TensorFlow 编程 模块 方面 的 解决 方案 。 


3.7 ”通过 一 个 示例 来 认识 TensorFlow 


现在 让 我 们 结合 示例 对 TensorFlow 框架 中 的 一 些 基本 组 件 进行 更 多 的 解读 。 我 们 编写 一 个 示 
例 来 执行 以 下 计算 ， 这 在 神经 网 络 中 非常 常见 : 


h=sigmoid(W*x+b) 


这 里 历 和 x 是 矩阵 ，b 是 向 量 ，* 表 示 点 积 。 sigmoid 是 一 个 非 线性 变换 ， 由 下 式 给 出 ; 


sigmoid(x) = 
Le 
我 们 将 逐步 讨论 如 何 通 过 TensorFlow 进行 上 述 计算 。 
首先 ,我 们 需要 导入 TensorFlow 和 NumPy。 在 Python 中 运行 任何 类 型 的 TensorFlow 或 NumPy 
相关 操作 之 前 ， 均 必须 导入 它们 : 
import tensorflow as tf 


import numpy as np 
接 下 来 ， 我 们 定义 一 个 图 对 象 ， 稍 后 将 使 用 运算 或 操作 和 变量 填充 它们 : 
graph = tf.Graph () # 创建 一 个 图 (graph) 对 象 


session = tf.InteractiveSession (graph=graph) # 创建 一 个 会 话 (session) 对 象 


graph 对 象 包含 一 个 计算 图 ， 该 计算 图 连接 我 们 在 程序 中 定义 的 各 种 输入 和 输出 ， 以 获得 最 终 
所 需 的 输出 即 它 定义 W、x 和 b 如 何 被 连接 以 便 我 们 根据 图 生成 h) 。 此 外 ， 我 们 将 定义 一 个 会 
话 对 象 ， 该 对 象 以 定义 的 图 作为 输入 ， 执 行 该 图 。 我 们 后 面 会 详细 讨论 这 些 元 素 。 

要 创建 新 的 图 对 象 ， 可 以 使 用 以 下 操作 : 


graph = tf.Graph() 


也 可 以 使 用 以 下 操作 来 获取 TensorFlow 默认 计算 图 : 


graph = tf.get default graph() 


现在 我 们 将 定义 一 些 张 量 , 即 x、W、b 和 h。 在 TensorFlow 中 , 定义 张 量 有 几 种 不 同 的 方法 ， 
在 这 里 列 出 三 种 : 


(1) 首先 ，x 是 一 个 占 位 符 。 顾 名 思 义 ， 占 位 符 没有 被 初始 化 。 相 反 ， 我 们 将 在 图 执行 时 提 
供 一 些 数值 。 

(2) 其 次 ， 这 里 有 变量 W 和 b。 由 于 变量 是 可 变 的 ， 这 意味 着 它们 的 值 可 以 随时 间 而 变化 。 

(3) 最 后 ， 我 们 有 jh， 这 是 一 个 通过 对 x、W 和 b 执行 一 些 操作 而 产生 的 不 可 变 的 张 量 : 
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x = tf.placeholder (shape=[1,10],dtype=tf.float32,name="'x'"') 

W = tf.Variable (tf.random uniform(shape=[10,5], minval=-0.1,maxval=0.1, 
dtype=tf.float32),name='W') 

b = tf.Variable (tf.zeros (shape=[5],dtype=tf.float32),name='b') 

h = tf.nn.sigmoid(tf.matmul (x,W) + b) 


注意 ， 对 于 W 和 b， 我 们 提供 了 一 些 重要 的 参数 : 


tf.random uniform(shape=[10,5], minval=-0.1, maxval=0.1,dtype=tf.float32) 
tf.zeros (shape=[5] ,dtype=tf.float32) 


这 些 被 称 为 变量 初始 化 器 ， 是 最 初 分 配给 W 和 变量 的 张 量 。 变 量 不 能 在 没有 初始 值 的 情况 
下 作为 占 位 符 流动 ， 并 且 需 要 始终 为 它们 分 配 一 些 数值 。 这 里 ，tfrandom_uniform 意味 着 我 们 在 
minval(-0.1) 和 maxval(0.1) 之 间 均 匀 地 采样 以 将 值 赋 给 张 量 ， 并 且 tfzeros 用 零 初始 化 张 量 。 在 定义 
张 量 时 ,定义 张 量 的 shape 也 非常 重要 。shape 属性 定义 张 量 每 个 维度 的 大 小 .例如 , 如 果 形 状 (shape) 
是 [10,5]， 这 意味 着 它 将 是 一 个 二 维 结构 ， 在 0 轴 上 有 10 个 元 素 ,在 1 轴 上 有 5 个 元 素 。 

接 下 来 ， 我 们 将 进行 初始 化 操作 ， 初 始 化 图 中 的 变量 W 和 b: 


tf.global variables initializer().run() 


现在 ,将 执行 计算 图 以 获得 我 们 需要 的 最 终 输出 h。 这 是 通过 运行 session.run(.…) 来 完成 的 , 我 
们 将 以 占 位 符 的 值 作为 session.run0 命 令 的 参数 : 


h eval = session.runl(h,feed dict={x: np.random.rand(1,10)}) 
最 后 ， 关 闭会 话 ， 释 放 session 对 象 持 有 的 所 有 资源 。 
session.close() 


以 下 是 此 TensorFlow 示例 的 完整 代码 。 本 章 中 的 所 有 代码 示例 都 将 在 ch3 文件 夹 中 的 
3_tensorflow_introduction.ipynb 文件 中 提供 : 


import tensorflow as tf 

import numpy as np 

# 定义 graph 和 session 

graph = tf.Graph() # Creates a graph 


session = tf.InteractiveSession (graph=graph) # Creates a session 


# 构建 graph 

# 占 位 符 是 一 种 符号 输入 

x = tf.placeholder (shape=[1,10],dtype=tf.float32,name="'x') 

W = tf.Variable (tf.random uniform(shape=[10,5], minval=-0.1,maxval=0.1, 
dtype=tf.float32) ,name='W') # 相关 变量 


# 相关 变量 
b = tf.Variable (tf.zeros (shape=[5],dtype=tf.float32),name='b') 
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h = tf.nn.sigmoid(tf.matmul (x,W) + b) # Operation to be performed 
# 在 图 中 执行 操作 和 评估 节点 

tf.global variables initializer() .run() # 初始 化 变量 

# 通 过 为 输入 x 提供 数值 来 运行 该 操作 

h_eval = session.runl(h,feed dict={x: np.random.rand(1,10)}) 

# 关闭 会 话 以 释放 会 话 中 的 所 有 已 保存 资源 


session.close() 


3.8 TensorFlow 客户 端 


前 面 的 示例 程序 可 以 称 为 TensorFlow 客户 端 ， 本 节 结 合 示例 和 上 面 的 内 容 ， 对 TensorFlow 客 
户 端 做 详细 的 解读 。 在 使 用 TensorFlow 编写 的 任何 客户 端 程序 中 , 主要 将 有 两 种 主要 类 型 的 对 象 : 
运算 〈Operation) 和 张 量 (Tensor) 。 在 前 面 的 例子 中 ，tf.nn.sigmoid 是 一 个 运算 ，h 是 张 量 。 

然后 ， 这 里 还 有 一 个 graph 对 象 ， 它 是 存储 程序 数据 流 的 计算 图 。 当 我 们 在 代码 中 添加 定义 的 
x、W、b 和 h 的 后 续 代 码 行 时 ，TensorFlow 会 自动 将 这 些 张 量 (Tensor) 和 每 个 运算 (Operation) 
〈 例 如 ， 攻 matmul0) 作为 节点 添加 到 图 中 。 该 图 将 存储 重要 信息 ， 例 如 张 量 的 依赖 性 以 及 要 执行 
的 运算 。 在 我 们 的 示例 中 ， 如 果 要 计算 h， 那 么 张 量 x、W 和 ob 是 必需 的 。 因 此 ， 如 果 在 运行 时 没 
有 正确 初始 化 其 中 一 个 参数 ，TensorFlow 将 在 这 里 指出 需要 修正 的 具体 的 初始 化 错误 。 

接着 ， 由 前 面 内 容 ， 我 们 知道 会 话 (Session) 将 扮演 执行 计算 图 的 角色 ， 方 法 是 将 图 划分 为 
子 图 、 更 精细 的 图 ， 然 后 将 这 些 图 分 配给 将 执行 指定 任务 的 worker， 这 是 通过 session.run(.…) 函 数 
来 完成 的 。 下 面 ， 我 们 来 看 看 TensorFlow 架构 中 执行 客户 端 时 的 情况 。 

大 家 知道 ，TensorFlow 擅长 创建 一 个 包含 所 有 依赖 关系 和 运算 的 精确 计算 图 ， 且 它 能 够 准确 
地 知道 数据 流 以 何 种 方式 、 何 时 、 在 哪里 流动 。 当 然 , 还 有 一 个 元 素 使 得 TensorFlow 变 得 更 优秀 ， 
那 就 是 能 够 有 效 执行 计算 图 的 会 话 (Session) ， 这 也 是 会 话 进入 TensorFlow 架构 的 入 口 之 处 。 现 
在 让 我 们 来 看 看 会 话 的 内 部 情况 ， 以 了 解 图 形 是 如 何 被 执行 的 。 

首先 ， 由 前 面 的 介绍 ， 我 们 知道 TensorFlow 客户 端 中 的 相关 元 素 有 计算 图 、 张 量 和 会 话 。 创 
建 会 话 时 , 它 会 将 计算 图 作为 人 GraphDef 协议 缓冲 区 发 送 到 分 布 式 架构 的 主机 。 tfGraphDef 是 图 
的 标准 化 表示 。 分布 式 主 服务 器 查看 图 中 的 所 有 计算 ,并 将 计算 划分 到 不 同 的 设备 (例如 ,不同 的 
GPU 和 CPU) 。 我 们 的 sigmoid 示例 中 的 计算 图 如 图 3-6 所 示 。 

接 下 来 , 计算 图 将 被 分 解 为 子 图 ， 并 进一步 细 分 为 更 细 的 部 分 ， 这 在 具有 许多 隐藏 层 的 现实 世 
界 解 决 方案 中 意义 更 大 。 此 外 ， 为 了 并 行 地 执行 任务 〈 例 如 ， 多 个 设备 ) ,将 计算 图 分 解 为 多 个 六 
分 就 变 得 很 重要 。 执 行 此 图 ( 若 该 图 被 划分 为 子 图 ， 则 执行 子 图 ) 称 为 单个 任务 ， 其 中 任务 被 分 配 
给 单个 TensorFlow 服务 器 。 
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tf,nn,sigmoid 


3-6 客户 端的 计算 图 
然而 ,在 现实 中 , 每 个 任务 都 是 通过 将 其 分 解 为 两 个 部 分 来 执行 的 ,每 个 部 分 都 是 由 单个 worker 
执行 的 : 
@ 一 个 worker 使 用 参数 的 当前 值 (运算 执行 器 ) 执行 TensorFlow 操作 。 
@ 一 个 worker 存储 参数 ， 并 使 用 执行 运算 器 后 获得 新 值 来 更 新 它们 ( 参数 服务 器 ) 。 


TensorFlow 客户 端的 通用 工作 流程 如 图 3-7 所 示 。 


Tensorflow Client 


Graph Session 


Distributed 


,| GraphDef 


Single Task 
图 3-7 TensorFlow 客户 端的 通用 执行 路 线 图 


图 3-8 说 明了 计算 图 的 分 解 情况 。 除 了 分 解 计算 图 之 外 ，TensorFlow 还 插入 发 送 节点 和 接收 节 
点 ， 以 利于 参数 服务 器 和 运算 执行 器 之 问 的 通信 。 我们 可 以 理解 为 每 当 数据 可 用 时 ， 发 送 节 点 就 发 
送 数据 ， 其 中 接收 节点 在 对 应 的 发 送 节点 发 送 数据 时 继续 侦 听 和 捕获 数据 。 
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Parameter Server 


assign 


Recv 


send _. 


a 


Op Executor 
/Job:ps/task:9 /job:worker/task:0 


3-8 ”计算 图 的 分 解 情况 


最 后 , 一 旦 计算 完成 , 会 话 就 将 更 新 的 数据 从 参数 服务 器 端 带 回 到 客户 端 。 从 现在 技术 角度 来 
看 ,我 们 也 可 以 给 出 TensorFlow 的 技术 架构 , 如 图 3-9 所 示 。 此 解释 基于 https://tensorflow.google.cn/ 
extend/architecture 上 的 官方 TensorFlow 文档 。 


CAPI 


Kernel implementations 


Device layer 


图 3-9 TensorFlow 技术 架构 


3.9 TensorFlow 中 常见 元 素 解 读 


在 了 解 底层 架构 的 同时 ， 我 们 下 面 将 介绍 构成 TensorFlow 客户 端 中 最 常见 的 元 素 。 
@ 输入 (Input) : 用 于 训练 和 测试 算法 的 数据 。 
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@ 变量 (Variable) : 可 变 张 量 ， 主 要 定义 算法 的 参数 。 
@ 输出 (Output) : 存储 终端 和 中 间 输 出 的 不 可 变 张 量 。 
@ 运算 或 操作 (Operation ) : 输入 的 各 种 变换 以 产生 期 望 的 输出 。 


在 之 前 的 sigmoid 示例 中 ， 我 们 可 以 找到 相关 类 别 的 实例 ， 如 表 3-2 中 所 示 。 
表 3-2 sigmoid 例子 中 相关 类 别 的 实例 


TensorFlow 元 素 示例 客户 端的 值 

Input 一 输入 x 

Variable 一 变量 W 和 ob 

Output 一 输出 h 

Operation 一 运算 操作 tf matmul(..), tt.nn.sigmoid(...) 


接 下 来 ， 我 们 将 详细 解读 TensorFlow 中 的 这 些 元 素 。 


3.9.1 在 TensorFlow 中 定义 输入 


客户 端 主要 以 下 面 三 种 不 同 的 方式 接收 数据 : 

@ ”使 用 Python 代码 在 算法 的 每 个 步骤 中 提供 数据 。 
@ ”将 数据 预 加 载 并 存储 为 TensorFlow 张 量 。 

@ ”构建 输入 管道 。 

接 下 来 ， 具 体 看 看 这 三 种 不 同 的 方式 。 

1. 使 用 Python 代码 提供 数据 


在 第 一 种 方法 中 ， 可 以 使 用 传统 的 Python 代码 方法 将 数据 提供 给 TensorFlow 客户 端 。 在 我 们 
之 前 的 示例 中 ，x 是 此 方法 的 示例 。 为 了 从 外 部 数据 结构 〈 例 如 ，numpy.ndarray) 向 客户 端 提供 数 
据 ，TensorFlow 库 提供 了 一 种 极 佳 的 数据 结构 符号 ， 称 为 占 位 符 〈 了 Placeholder ) ， 
tplaceholder(.…)。 前 面 我 们 说 过 ， 占 位 符 在 计算 图 构建 阶段 不 需要 实际 数据 ， 相 反 ， 我 们 仅 通过 执 
行 session.run(.…, feed_dict = {placeholder: value}) 调 用 的 图 时 提供 数据 , 方法 是 将 外 部 数据 以 Python 


字典 的 形式 传递 给 feed_dict 参数 。 占 位 符 的 定义 如 下 : 
tf.placeholder (dtype, shape=None, name=None) 
参数 如 下 : 
@ dtype: 这 是 提供 占 位 符 的 数据 的 类 型 。 
@@ ”shape: 这 是 占 位 符 的 shape， 以 一 维 向 量 给 出 。 
@ name: 这 是 占 位 符 的 名 称 ， 对 于 调试 很 重要 。 
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2. 将 数据 预 加 载 并 存储 为 张 量 
第 二 种 方法 与 第 一 种 方法 类 似 , 但 有 一 点 需要 注意 。 我 们 不 必 在 计算 图 执行 期 间 提供 数据 ， 因 
为 数据 是 预先 加 载 的 。 为 了 了 解 这 一 点 ， 让 我 们 修改 一 下 sigmoid 示例 ， 将 x 定义 为 占 位 符 : 


x = tf.placeholder (shape=[1,10],dtype=tf.float32,name="'x'"') 


另外 ， 也 将 x 定义 为 包含 具体 数值 的 张 量 : 


x = tf.constant (value=[[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]], 
dtype=tf.float32,name='x') 


其 完整 代码 将 变 为 如 下 : 


import tensorflow as tf 
# 定义 graph 和 session 
graph = tf.Graph() 


session = tf.InteractiveSession (graph=graph) 
# 创建 计算 图 graph 
#x - 预 加 载 的 输入 
x = tf.constant (value=[[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]], 
dtype=tf.float32,name='x') 
W = tf.Variable (tf.random uniform(shape=[10,5], minval=-0.1, maxval=0.1, 
dtype=tf.float32),name='W') # 变量 
# 相关 变量 
b = tf.Variable (tf.zeros (shape=[5] ,dtype=tf.float32),name='b') 
h = tf.nn.sigmoid(tf.matmul (x,W) + b) # 将 要 执行 的 运算 
# 在 图 中 执行 运算 和 评估 节点 
tf.global variables initializer() .run() # 初始 化 变量 
# 执 行 不 带 有 feed_dict 的 运算 
h eval = session.run(h) 
Print (h_eval) 
# 关 闭会 话 ， 释 放 资 源 


session.close() 


其 实 ， 可 以 发 现 这 里 与 原来 sigmoid 示例 存在 两 个 主要 区 别 。 我 们 以 不 同 的 方式 定义 了 x。 现 
在 直接 指定 一 个 具体 值 并 将 x 定义 为 张 量 ， 而 不 是 使 用 占 位 符 对 象 并 在 计算 图 执行 时 输入 实际 值 。 
另外 ， 正 如 你 看 到 的 ， 我 们 在 session.run(.…) 中 不 会 提供 任何 额外 的 参数 。 但 是 ， 在 缺点 方面 , 现 
在 我 们 无 法 在 session.run(..) 处 向 x 提供 不 同 的 值 并 查看 输出 是 如 何 变 化 的 。 

3. 构建 数据 输入 管道 

输入 管道 是 专门 为 需要 快速 处 理 大 量 数据 的 “重量 级 ”客户 端 而 设计 的 。 这 实际 上 创建 了 一 个 
保存 数据 的 队列 ， 直 到 等 到 需要 它 的 时 候 为 止 。TensorFlow 还 提供 了 各 种 预 处 理 步骤 (例如 ， 
于 调整 图 像 对 比 度 /亮度 或 者 标准 化 )， 在 将 数据 提供 给 算法 之 前 执行 。 为 了 提高 效率 ， 可 以 让 多 
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个 线程 并 行 读 取 和 处 理 数据 。 


(1) 数据 输入 管道 的 结构 
TensorFlow 数据 输入 管道 也 可 以 被 抽象 为 一 个 ETL 过 程 (Extract、Transform、Load) 。 


@ ”Extract: 从 硬盘 上 读 取 数据 , 可 以 是 本 地 ( HDD 或 SSD ), 也 可 以 是 网 盘 ( GCS 或 HDFS )。 

@ Transform: 使 用 CPU 去 解析 、 预 处 理 数 据 ， 比 如 图 像 解 码 、 数 据 增强 、 变 换 (比如 随 
机 裁剪 、 翻 转 、 磊 色 变 换 ) 、 打 乱 (shuffle ) 、 分 批量 (batching ) 。 

@ Load: 将 Transform 后 的 数据 加 载 到 计算 设备 ， 例 如 GPU、TPU 等 设备 。 


这 种 模式 有 效 地 利用 了 CPU， 从 而 让 GPU、TPU 等 设备 专注 于 进行 模型 的 训练 过 程 〈 提 高 
了 设备 的 利用 率 ) 。 
具体 来 看 ， 典 型 的 管道 将 包含 以 下 组 件 : 


文件 名 列表 。 

文件 名 队列 ， 为 输入 (记录 ) 阅读 器 生成 文件 名 。 
用 于 读 取 输入 的 记录 阅读 器 (记录 ) 。 

解码 读 取 记录 的 解码 器 ( 例如 ，JPEG 图 像 解码 ) 。 
预 处 理 步骤 ( 可 选 ) 。 

一 个 示例 (解码 输入 ) 队列 。 


(2) 数据 输入 管道 (Pipeline) 的 优化 

随 着 新 的 计算 设备 (例如 GPU 和 TPU) 的 应 用 ， 使 得 以 越 来 越 快 的 速度 训练 神经 网 络 成 为 可 
能 , CPU 处 理 方式 很 容易 过 到 海量 数据 计算 的 瓶颈 。tfdata API 提供 数据 输入 管道 所 需 的 各 种 部 件 ， 
可 以 对 数据 输入 管道 进行 优化 。 

在 执行 一 个 训练 step 之 前 ， 必 须 先 做 Extract、Transform 训练 数据 ， 然 后 将 其 提供 给 计算 设 
备 上 运行 的 模型 。 在 以 前 ， 当 CPU 在 准备 数据 时 ， 计 算 设备 处 于 闲置 状态 ， 当 计算 设备 执行 训练 
模型 时 ，CPU 又 处 于 闲置 状态 。 因此， 单个 训练 step 的 时 间 等 于 CPU 准备 数据 的 时 间 和 计算 设 
备 执行 训练 step 时 间 的 总 和 。 

Pipelining 操作 将 训练 step 中 的 数据 准备 和 模型 执行 实现 了 并 行 操作 。 当 计算 设备 在 执行 第 
N 个 训练 step 时 ，CPU 将 为 第 N+1 个 训练 step 准备 数据 。 这 样 ， 通 过 两 个 过 程 的 重 关 ， 单 个 
训练 step 的 时 间 将 取 CPU 准备 数据 的 时 间 和 计算 设备 执行 训练 step 的 时 间 中 的 较 大 值 。 

如 果 我 们 没有 进行 管道 化 〈Pipelining) 操作，CPU 和 GPU/TPU 中 大 部 分 时 间 处 于 空闲 状态 ， 
如 图 3-10 所 示 。 


time 
图 3-10 没有 使 用 Pipelining 操作 的 CPU 和 GPU /TPU 处 于 空闲 状态 的 时 间 示 意图 
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我 们 如 果 使 用 Pipelining 操作 ，CPU 和 GPU/TPU 中 处 于 空闲 状态 的 时 间 显 著 减 少 ， 如 图 3-11 
所 示 。 


time 


图 3-11 使 用 Pipelining 操作 的 CPU 和 GPU/TPU 处 于 空闲 状态 的 时 间 示 意图 


有 关 更 多 信息 ， 请 参阅 https://tensorflow.google.cn/guide/performance/datasets#input 
pipeline_structure 上 有 关 数 据 输入 管道 的 官方 说 明 。 


(3) 编写 输入 管道 示例 

让 我 们 使 用 TensorFlow 编写 一 个 输入 管道 示例 。 在 这 个 例子 中 , 我 们 有 三 个 CSV 格式 的 文本 
文件 (textl.txt, text2.txt 和 text3.txt)， 每 个 文件 有 5 行 , 每 行 有 10 个 用 逗号 分 隔 的 数字 (示例 行 : 
0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0) 。 接 着 ， 我 们 具体 来 看 一 下 。 


更 多 相关 信息 ,请 参阅 https://tensorflow.google.cn/programmers_guide/reading data 上 有 关 
导入 数据 的 TensorFlow 官方 说 明 。 


首先 ， 和 以 前 一 样 导 入 一 些 重 要 的 库 : 


import tensorflow as tf 


import numpy as np 
接 下 来 ， 我 们 将 定义 计算 图 graph 和 会 话 session 对 象 : 


graph = tf.Graph() 
session = tf.InteractiveSession (graph=graph) 


然后 ， 我 们 将 定义 一 个 文件 名 队列 ， 一 个 包含 文件 名 的 队列 数据 结构 。 这 将 作为 参数 传递 给 
reader( 后 面 将 被 定义 ) 。 队 列 将 根据 reader 的 请 求生 成 文件 名 ， 以 便 读者 可 以 使 用 这 些 文件 名 获 
取 文 件 进而 读 取 数 据 : 


filenames = ['test%d.txt'%i for i in range(1,4)] 


filename queue = tf.train.string input producer (filenames, capacity=3, 


shuffle=True,name="'string input producer') 


这 里 ，capacity 是 在 给 定时 间 时 队列 中 保存 的 数据 量 ，shuffle 告诉 队列 是 否 在 发 出 数据 之 前 对 
数据 进行 重新 打 乱 (shuffle) 。 
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TensorFlow 有 几 种 不 同类 型 的 reader (https://tensorflow.google.cn/api guides/python/io_ops#Readers 
上 提供 了 可 用 reader 列表 ) 。 由 于 我 们 有 一 些 单独 的 文本 文件 ， 其 中 一 行 代表 一 个 数据 点 ， 因 此 ， 
这 里 TextLineReader 是 最 适合 的 : 


reader = tf.TextLineReader() 


在 定义 reader 之 后 ， 我 们 可 以 使 用 readO 函 数 从 文件 中 读 取 数 据 。 它 输出 的 是 “ 键 - 值 * 对 。 该 
键 识别 出 文件 和 该 文件 中 正在 读 取 的 记录 文本 行 )， 我 们 可 以 省 略 这 个 。 该 值 返回 reader 所 读 取 
行 的 实际 值 : 


key, value = reader.read(filename queue, name='text read op') 


下 面 我 们 将 定义 record_defaults， 如 果 发 现存 在 任何 错误 记录 提示 ， 将 给 出 如 下 输出 : 


record defaults=[[-1.0]，[-1.0]，[-1.0]，[-1.0]，[-1.0]，[-1.0], [-1.0]，[-1.0]， 
tt 0 【Lu 0 


现在 ， 我 们 将 读 取 的 文本 行 解码 为 数字 列 〈 就 像 我 们 的 CSV 文件 一 样 ) 。 为 此 ， 我 们 使 用 
decode_csv0 方 法 。 打 开 文 件 ( 例 如，testl.txt) ， 将 看 到 在 一 行 中 有 10 列 : 


Coll, col2, col3, col4, col5, col6, col7, col8, col9, col10 =tf.decode csvl(value, 
record defaults=record defaults) 


然后 ， 我 们 将 连接 这 些 列 来 组 成 单个 张 量 ( 称 之 为 特征 )， 这 些 张 量 将 被 传递 给 另 一 个 方法 
tftrain.shuffle batch0。 train.shuffle_batch0 方 法 采用 先前 定义 的 张 量 ， 随 机 填充 张 量 并 输出 一 批 
给 定 的 批量 大 小 : 

features =tf.stack([col1l，col2，col3，col4，col5，col16，col7，col8,co19，col10]) 

x = tf.train.shuffle batch([features], batch size=3, capacity=5, 


name="'data batch', min after dequeue=1, 
num threads=1) 


batch_size 参数 是 我 们 在 给 定 step 中 采样 的 数据 批量 大 小 ，capacity 是 数据 队列 的 容量 (大 型 
队列 需要 更 多 内 存 ), min_after_dequeue 表示 部 分 元 素 出 队 后 还 留 在 队列 中 的 最 小 元 素数 量 。 最 后 ， 
num threads 定义 了 用 于 生成 一 批 数据 的 线程 数 。 如 果 管 道中 进行 了 大 量 预 处 理 ， 可 以 增加 这 个 线 
程 数 量 。 此 外 , 如 果 我 们 需要 在 不 进行 shuffle 的 情况 下 读 取 数据 (与 给 train.shuffle_batch 一 样 ) ， 
就 可 以 调用 给 train.batch 方法 。 接 着 ， 我 们 将 通过 以 下 命令 来 启动 此 管道 : 

coord = tf.train.Coordinator () 


threads = tf.train.start queue runners (coord=coord, sess=session) 


可 以 将 tftrain.Coordinator0 类 看 成 为 线程 管理 器 。 它 控制 着 各 种 管理 线程 的 机 制 。 我 们 需要 
ftrain.Coordinator0 类 , 因为 输入 管道 产生 许多 线程 来 填充 入 队 队 列 、 出 列队 列 以 及 许多 其 他 任务 。 
接 下 来 ， 我 们 将 使 用 之 前 创建 的 线程 管理 器 去 执行 tftrain.start_queue_runners(..….)。QueueRunner() 
保存 队列 的 入 队 操 作 ， 这 些 操作 是 在 定义 输入 管道 时 自动 创建 的 。 因 此 ， 要 填充 已 定义 的 队列 ， 我 
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们 需要 调用 萎 train.start queue runners 函数 来 启动 这 些 队列 运行 的 程序 。 

接 下 来 ,在 指定 任务 完成 之 后 , 我 们 需要 停止 相关 线程 并 将 它们 连接 到 主线 程 ,否则 眼前 的 程 
序 将 无 限期 挂 起 。 这 是 通过 调用 coord.request_stop0 〇 和 coord.join(threads) 来 实现 的 。 这 个 数据 输入 
管道 与 我 们 的 sigmoid 示例 相 结合 ， 便 能 够 直接 从 文件 中 读 取 数据 ， 如 下 所 示 : 


import tensorflow as tf 
import numpy as np 
import os 
# 定义 graph 和 session 
graph = tf.Graph() 
session = tf.InteractiveSession (graph=graph) 
### 创建 数据 输入 管道 ### 
# 文件 名 队列 
filenames = ['test%d.txt'%i for i in range(1,4)] 
filename queue = tf.train.string input producer (filenames, capacity=3, 
shuffle=True, name='string input producer') 
# 检查 所 有 文件 是 否 存在 
for f in filenames: 
if not tf.gfile.Exists (f): 
raise ValueError('Failed to find file: ' + f£) 


else: 
print('File %s found.'s%f 
#reader 接受 一 个 文件 名 队列 和 read () 函数 ，read () 函数 依次 输出 数据 
reader = tf.TextLineReader () 
# 输出 “ 键 - 值 ” 对 
key, value = reader.read(filename queue, name='text read op') 
# 如 果 在 读 取 文件 时 遇 到 任何 问题 ， 这 是 返回 的 值 
record defaults= [[-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [-1.0],[-1.0], [-1.0], 
[=1.01s [=1.0]]1 
# 将 读 取 到 的 数值 解码 为 列 
Colly :Col27 col3; col4; col5y .col6 Gel77 col8, col97 col10 = 
tf.decode csv(value, record defaults=record defaults) 


# 现在 我 们 将 这 些 列 又 加 在 一 起 ， 形 成 一 个 包含 所 有 列 的 单个 张 量 
features =tf.stack([coll, col2, col3, col4, col5, col6, col7, col8,col19, col10]) 
# 输出 x 被 随机 分 配 一 批 patch_size 数据 ， 其 中 从 .txt 文件 中 读 取 数 据 
x = tf.train.shuffle batch([features], batch size=3, capacity=5, 
name='data batch',min after dequeue=]1,num threads=1) 
#QueueRunner 从 队列 中 检索 数据 ， 我 们 需要 显 式 地 启动 它们 
# Coordinator 协调 多 个 QueueRunners 
coord = tf.train.Coordinator () 


threads = tf.train.start queue runners (coord=coord, sess=session) 
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# 通过 定义 变量 和 计算 来 构建 计算 图 

W = tf.Variable(tf.random uniform(shape=[10,5], minval=-0.1,maxval=0.1, 
dtype=tf.float32) ,name='W') # 变量 

# 相关 变量 

b = tf.Variable (tf.zeros (shape=[5],dtype=tf.float32),name='b') 

h = tf.nn.sigmoid(tf.matmul (x,W) + b) # 要 执行 的 运算 

# 在 图 中 执行 运算 和 评估 各 节点 

tf.global variables initializer() .run() # 初始 化 变量 

# 用 zx 计算 h 并 打印 5 个 步 的 结果 

for step in range(5) : 

x eval, h eval = session.run([x,h]) 

print ('========== Step %d ==-=—======"'%step) 

print('Evaluated data (x)') 

print (x_eval) 

print('Evaluated data (h)') 

print (h eval) 

peintt") 

# 关闭 coordinator， 否 则 程序 将 无 限期 挂 起 

coord.request stop() 

coord.join (threads) 


session.close() 


3.9.2 在 TensorFlow 中 定义 变量 


变量 在 TensorFlow 中 扮演 着 重要 角色 。 变 量 本 质 上 是 一 个 张 量 ， 具 有 特定 的 形状 (shape》， 
该 形状 〈shape) 用 于 定义 变量 将 具有 多 少 个 维度 以 及 每 个 维度 的 大 小 。 然 而 ， 与 常规 张 量 不 同 ， 
变量 是 可 变 的 ， 也 就 意味 着 变量 的 值 在 定义 后 是 可 以 改变 的 。 这 是 实现 学 习 模 型 参数 (例如 ， 神 经 
网 络 权重 值 ) 的 理想 属性 ， 其 中 权重 值 在 每 个 学 习 步 骤 之 后 会 稍 有 变化 。 例 如 ， 如 果 使 用 x = 
给 Variable(0,dtype=tf.int32) 定 义 变量 ， 则 可 以 使 用 诸如 给 assign(x,x+1) 之 类 的 TensorFlow 运算 来 更 
改 该 变量 的 值 。 但 是 ， 如 果 这 样 定义 张 量 ， 例 如 x = 从 constant(0，dtype = tint32)， 就 无 法 更 改 该 
张 量 的 值 ， 它 应 该 保持 0 的 状态 直到 程序 执行 结束 。 

变量 的 创建 很 简单 。 在 我 们 sigmoid 的 示例 中 ， 已 经 创建 了 两 个 变量 W 和 b。 在 创建 变量 时 ， 
有 一 些 事情 非常 重要 ， 在 这 里 列 出 它们 并 在 后 续 中 详细 讨论 : 
Variable shape: 变量 形状 。 
Data type: 数据 类 型 。 
Initial value: 初始 值 。 
@ Name (optional): 名 称 (可 选 ) 。 


变量 形状 是 K，y，z，.…] 格 式 的 一 维 向 量 。 列 表 中 的 每 个 值 表示 相应 维度 或 轴 的 大 小 。 例 如 ， 
如 果 需 要 具有 50 行 和 10 列 的 二 维 张 量 作为 变量 ， 那 其 形状 将 是 [50,10]。 
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变量 的 维 数 〈 形 状 向 量 的 长 度 ) 在 TensorFlow 中 被 识别 为 张 量 的 秩 。 不 要 把 它 与 矩阵 的 秩 混 
涌 起 来 。 


TensorFlow 中 张 量 的 秩 表示 张 量 的 维 数 ; 但 对 于 二 维和 矩阵 来 说 ， 其 秩 等 于 2。 


其 实 , 数据 类 型 在 确定 变量 大 小 方面 起 着 重要 作用 。 有 许多 不 同 的 数据 类 型 , 包括 常用 的 蕊 bool、 
tfuint8、 人 给 float32 和 ttint32〈 代 码 中 的 字段 类 型 ， 其 意义 基本 上 都 是 通用 的 ， 这 和 我 们 平时 编写 
Java 或 .net 程序 时 用 到 的 布尔 类 型 、 浮 点 类 型 、 整 数 类 型 类 似 ， 而 unit8 是 8 位 无 符号 整 型 ) 。 每 
种 数据 类 型 都 具有 属于 该 类 型 的 单个 值 所 需 的 位 数 (bit)。 例 如 ,ttuint8 类 型 需要 有 8 位 ,而 tffloat32 
需要 32 位 。 通 常 的 做 法 是 使 用 相同 的 数据 类 型 进行 计算 ， 否 则 会 导致 数据 类 型 的 不 匹配 。 因 此 ， 
如 果 需 要 对 两 个 具有 不 同 数据 类 型 的 张 量 进行 转换 ， 需 要 使 用 共 cast(...) 操 作 将 一 个 张 量 显 式 地 转 
换 为 男 一 个 张 量 的 类 型 。 例 如 ， 对 于 具有 ttint32 数据 类 型 的 x 变量 ， 需 要 将 其 转换 为 tffloat32 的 
类 型 ，tf.cast(x，dtype=tf.float32) 的 调用 就 是 将 x 变量 转换 为 从 float32 类 型 。 

接 下 来 ， 我 们 需要 对 变量 进行 初始 化 ，TensorFlow 也 提供 了 几 种 不 同 的 初始 化 器 ， 包 括 常数 
初始 化 器 和 正 态 分 布 初始 化 器 。 TensorFlow 一 些 主 要 的 初始 化 器 如 下 所 示 : 


tf.zeros 
tf.constant_initializer 


tfrandom uniform 


tf.truncated_normal 

最 后 ， 变 量 的 名 称 Cname) 将 作为 一 个 标识 符 〈(ID) ， 使 我 们 能 够 在 图 (Graph)〉 中 对 该 变量 
进行 识别 。 因 此 ， 如 果 我 们 对 计算 图 进行 可 视 化 操作 ， 那 变量 将 通过 传递 name 关键 字 参 数 的 形式 
进行 显示 。 如 果 未 指定 名 称 ，TensorFlow 将 使 用 默认 命名 方案 。 


Python 变量 tfvariable 是 赋 给 计算 图 的 ， 它 不 是 TensorFlow 变量 命名 的 一 部 分 。 考 虑 下 
面 的 示例 ， 可 以 在 其 中 指定 TensorFlow 变量 : 


a = tf.Variable (tf.zeros ( [5] )，name ='b') 


这 里 ，TensorFlow 的 图 将 通过 名 称 b 而 不 是 a 来 识别 该 变量 。 


3.9.3 定义 TensorFlow 输出 


TensorFlow 的 输出 通常 是 张 量 ， 可 以 是 输入 或 变量 或 两 者 转换 后 的 结果 。 在 我 们 的 例子 中 ，h 
是 一 个 输出 ， 其 中 h = tfnn.sigmoid (tfmatmul (x，W) + b) 。 当 然 ， 有 时 候 TensorFlow 的 一 个 
输出 也 可 能 变 成 下 一 个 输入 的 内 容 , 依次 输出 下 去 可 以 形成 一 组 链 式 运算 或 操作 , 而 这 里 的 运算 或 
操作 也 不 一 定 必 须 是 TensorFlow 运算 或 操作 ， 还 可 以 使 用 标准 Python 算法 ， 例 如 : 


58 | TensorFlow 与 自然 语言 处 理应 用 


x = tf.matmul (w,A) 
y=xXx+B 
z= tf.addl(y,c) 


3.9.4 定义 TensorFlow 运算 或 操作 


在 https://tensorflow.google.cn/api_docs/python/ 上 查看 TensorFlow API, 你 会 发 现 TensorFlow 有 
大 量 可 用 的 运算 或 操作 。 下 面 ， 我 们 将 对 TensorFlow 中 几 个 常见 的 运算 或 操作 进行 解读 。 

1 . 比较 运算 

比较 运算 对 于 比较 两 个 张 量 非常 有 用 。 对 于 比较 运算 部 分 的 详细 资料 ， 读 者 可 以 查阅 
https://github.com/tensorflow/docs/tree/master/site/en/api_guides/python 中 比较 运算 符 的 详细 内 容 。 当 
然 ， 对 于 比较 运算 工作 原理 的 理解 ， 通 过 代码 层面 可 能 会 更 直观 些 。 这 里 ， 我 们 给 出 示例 张 量 x 
和 y: 

# 假 设 x 和 y 的 取 值 如 下 

#x (2-D tensor) => [[1,2], [3,4]] 

#y (2-D tensor) => [[4,3],[3,2]] 


x= tf.constant ([[1,2],[3,4]], dtype=tf.int32) 
y= tf.constant ([[4,3],[3,2]], dtype=tf.int32) 


# 检查 两 个 张 量 在 元 素 方面 是 否 相等 ， 并 返回 布尔 类 型 的 张 量 

# x equal y => [[False,False], [True,False]] 

x equal y = tf.equal (x, y, name=None) 

# 检 查 x 在 对 应 元 素 方面 是 否 小 于 y 并 返回 布尔 类 型 的 张 量 

# x less y => [[True,True], [False,False]] 

x_ less y = tf.less(x, y, name=None) 

# 检查 x 在 对 应 元 素 方面 是 否 大 于 或 等 于 y 并 返回 布尔 类 型 的 张 量 


# x great equal y => [[False,False], [True,True]] 


x great equal y = tf.greater equal (x, y, name=None) 

# 从 zx 和 y 中 选择 元 素 ， 具 体 取决 于 条 件 是 否 满足 (从 x 中 选择 元 素 ) 或 

# 条 件 失败 (从 y 中 选择 元 素 ) 

condition = tf.constant([[True,False], [True, False]] ,dtype=tf .bool1) 
# x cond y => [[1,3], [3,2]] 


x cond y = tf.where(condition, x, y, name=None) 

2. 比较 数学 运算 

TensorFlow 允许 我 们 对 从 简单 到 复杂 的 张 量 执行 数学 运算 。 这 里 我 们 将 讨论 TensorFlow 中 提 
供 的 一 些 数 学 运算 。 完 整 的 运算 集 可 在 https://github.com/tensorflow/docs/tree/master/site/en/ 
api_guides/python 上 找到 。 
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# 假 设 x 和 Y 的 取 值 如 下 

#x (2-D tensor) => [[1,2],[3,4]] 

#y (2-D tensor) => [[4,3],1[3,2]] 

x= tf.constant ([[1,2],[3,4]], dtype=tf.float32) 

Y = tf.constant ([[4,3],[3,2]], dtype=tf.float32) 

# 以 元 素 方式 增加 两 个 张 量 x 和 y 

# x add y => [[5,5],[6,6]] 

x add y = tf.add(x, y) 

# 执行 矩阵 乘法 不 是 元 素 方面 ) 

# x mul y => [[10,7],[24,17]] 

x mul y = tf.matmul (x, y) 

# 计算 x 元 素 的 自然 对 数 ， 相 当 于 计算 ln (x) 

# log x => [[0,0.6931], [1.0986,1.3863]] 

log x = tf.1og(x) 

# 在 指定 轴 上 执行 归 约 (reduction) 

# x_ sum 1 => [3,7] 

x sum 1 = tf.reduce sum(x, axis=[1], keepdims=False) 
# x_sum 2 => [[4],[6]] 

x sum 2 = tf.reduce sum(x, axis=[0], keepdims=True) 


# 根据 segment_ids〔 同 一 段 中 具有 相同 id 的 项 ) 对 张 量 进行 分 段 ， 并 计算 数据 的 分 段 总 和 
data = tf.constant ([1,2,3,4,5,6,7,8,9,10], dtype=tf.float32) 
segment ids = tf.constant ([0,0,0,1,1,2,2,2,2,2 ], dtype=tf.int32) 
# x_ seg sum => [6,9,40] 


x _ seg sum = tf.segment sum(data, segment ids) 
3. 比较 分 散 ( Scatter ) 和 聚合 ( Gather ) 操作 


随 着 人 工 智能 的 迅猛 发 展 ， 尤 其 是 GPU 可 编程 性 能 的 增强 以 及 GPGPU (General Purpose 
Computing on GPU， 在 图 形 处 理 器 上 进行 通用 计算 ) 技术 的 不 断 发 展 ， 相 关 研 究 /技术 人 员 也 迫切 
希望 基于 流 处 理 器 模型 的 GPU 也 可 以 和 CPU 一 样 , 在 支持 流程 分 支 的 同时 ,也 能 够 实现 对 存储 器 
进行 灵活 的 读 写 操作 。 其 实 ，Ian Buck 在 进行 早期 的 GPU 通用 可 编程 技术 研究 时 ， 就 发 现 GPU 完 
成 复杂 计算 任务 时 存在 一 个 关键 性 的 缺陷 ， 那 就 是 缺乏 灵活 的 存储 器 操作 。 所 以 , 他 在 后 来 的 研究 
中 就 增加 了 对 分 散 和 聚合 操作 的 支持 , 但 是 结果 还 是 以 牺牲 一 些 性 能 为 代价 的 情况 下 完成 了 整个 过 
程 。 

在 GPU 中, CUDA 中 分 散 和 聚合 操作 实现 的 结构 示意 图 与 第 一 向 量 机 中 的 很 相似 ， 分 散 允 许 
将 数据 输出 到 非 连续 的 存储 器 地 址 内 ， 而 聚合 则 允许 从 非 连续 的 存储 器 地 址 内 读 取 数 据 。 因此， 如 
果 认 为 存储 器 (如 DRAM) 是 一 个 二 维 数组 ， 分 散 则 可 以 看 作 利用 数组 下 标 或 索引 将 数据 写 入 数 
组 中 的 任意 位 置 ， 即 afi] = x， 而 聚合 则 可 以 看 作 是 利用 数组 下 标 或 索引 从 数组 中 的 任意 位 置 读 出 
数据 ， 即 X= a[j]。 

下 面 ， 我 们 给 出 CUDA 中 分 散 (Scatter) 和 聚合 (Gather) 操作 的 结构 示意 图 ， 如 图 3-12 所 
示 。 其 中 ， 每 个 ALU 可 以 看 作 是 一 个 处 理 核心 ， 通 过 分 散 /聚合 操作 ， 多 个 ALU 之 间 可 以 共享 存 
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储 器 ， 实 现 对 任意 地 址 数据 的 读 写 操作 。 


Gather 


图 3-12 CUDA 中 分 散 〈Scatter) 和 聚合 (Gather) 操作 的 结构 示意 图 


分 散 和 聚合 操作 在 矩阵 运算 任务 中 起 着 至 关 重 要 的 作用 ， 因 为 目前 来 看 这 两 种 变 体 在 
TensorFlow 中 是 把 张 量 编 入 索引 的 唯一 方法 。 换 句 话说 ， 不 能 像 在 NumPy 中 那样 访问 TensorFlow 
中 的 张 量 元 素 。 分 散 操作 允许 我 们 将 值 分 配给 指定 张 量 的 特定 索引 ， 而 聚合 操作 允许 我 们 提取 指定 
张 量 的 切片 〈 或 单个 元 素 ) 。 以 下 代码 显示 了 分 散 和 聚合 操作 的 一 些 变 体 : 


# 1-D scatter 操作 
ref = tf.Variable(tf.constant ([1,9,3,10,5],dtype=tf.float32), 
name='scatter update') 
indices = [1,3] 
updates = tf.constant ([2,4],dtype=tf.float32) 
tf_scatter update =tf.scatter update (ref, indices, updates, use_locking=None, 
name=None) 
# n-D scatter 操作 
indices = [[1], [3]] 
updates = tf.constant ([[1,1,1], [2,2,2]]) 
shape = [4,3] 
tf_scatter nd 1 = tf.scatter ndl(indices, updates, shape, name=None) 
# n-D scatter 操作 
indices = [[1,0],[3,1]] #2x2 
updates = tf.constant ([1,2]) # 2x1 
shape = [4,3] # 2 
tf _scatter nd 2 = tf.scatter ndl(indices, updates, shape, name=None) 
# 1-D gather 操作 
params = tf.constant ([1,2,3,4,5],dtype=tf.float32) 


indices = [1,4] 
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tf gather =tf.gather (params, indices, validate indices=True,name=None) 
#=> [2,5] 

# n-D gather 操作 

params = 
tf.constant ([[0,0,0], [1,1,1], [2,2,2], [3,3,3]],dtype=tf.float32) 

indices = [[0], [2]] 

tf gather nd = tf.gather nd(params, indices, name=None) 
#=>[[0,0,0], [2,2,2] 


params = 
tf.constant ([[0,0,0], [1,1,1], [2,2,2], [3,3,3]],dtype=tf.float32) 
indices = [[0,1], [2,2]] 


tf _ gather nd 2 = tf.gather nd(params, indices, name=None) 
#=>[[0,0,0], [2,2,2 


4. 比较 与 神经 网 络 相关 的 运算 或 操作 

下 面 让 我 们 看 看 几 个 很 有 用 的 神经 网 络 运算 或 操作 ， 这 些 将 在 后 面 的 章节 中 使 用 到 。 这 里 , 我 
们 会 对 简单 元 素 的 转换 进行 讨论 , 也 会 对 一 组 参数 对 于 另 一 个 值 的 偏 导数 的 运算 进行 讨论 , 并 给 出 
-个 简单 的 神经 网 络 实现 例子 。 

(1) 神经 网 络 的 非 线 性 激活 

非 线性 激活 能 够 使 神经 网 络 很 好 地 执行 许多 任务 。 通 常 ， 在 神经 网 络 的 每 一 层 输 出 后 〈 最 后 一 
层 除外 ) 都 会 有 一 个 非 线 性 的 激活 转换 (激活 层 ) 。 非 线性 变换 有 助 于 神经 网 络 学 习 数据 中 出 现 的 
各 种 非 线性 模式 。 这 对 于 解决 现实 世界 中 复杂 的 问题 非常 有 用 ， 因 为 与 线性 模式 相 比 ， 数 据 通常 具 
有 更 复杂 的 非 线 性 模式 。 


让 我 们 通过 一 个 例子 来 观察 一 下 非 线性 激活 的 重要 性 。 首 先 ， 回 想 一 下 我 们 在 sigmoid 
示例 中 看 到 的 神经 网 络 的 计算 。 如 果 我 们 忽视 b， 那 将 是 这 样 的 : 


h = sigmoid (Wxx) 
假设 有 一 个 三 层 神经 网 络 (W1、W2 和 W3 是 层 的 权重 值 ), 其 中 每 层 都 执行 前 面 的 计算 ; 


我 们 可 以 给 出 完整 计算 : 

h = sigmoid(W3*sigmoid(W2*sigmoid (Wl*x))) 

但 是 ， 如 果 我 们 删除 非 线 性 激活 (sigmoid )， 我 们 就 可 以 得 到 : 
(W3 * (W2 * (Wl *x))) = (W3*W2*W]1)*x 

因此 ， 在 没有 非 线 性 激活 的 情况 下 ， 可 以 将 三 个 层 降 为 单个 线性 层 。 


如 果 没有 各 层 之 间 的 非 线 性 激活 ,深度 神经 网 络 就 将 是 一 堆 相互 登 加 的 线性 层 而 已 , 而 且 一 组 
线性 层 基本 上 可 以 压缩 成 一 个 更 大 的 线性 层 。 综 上 所 述 ， 如果 没 有 非 线性 激活 ， 我 们 就 无 法 创建 具 
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有 多 个 层 的 神经 网 络 。 
现在 ， 我 们 将 列 出 神经 网 络 中 两 种 常用 的 非 线 性 激活 函数 以 及 它们 是 如 何在 TensorFlow 中 实 
现 的 : 


#x 的 Sigmoid 激活 由 1 / (1 + exp (-x) ) 给 出 
tf.nn.sigmoid(x,name=None) 
#x 的 ReLU 激活 由 max (0,x) 给 出 


tf.nn.relul(x, name=None) 


外 卷 积 运算 

卷 积 运算 是 一 种 广泛 使 用 的 信号 处 理 技术 。 对 于 图 像 ， 卷 积 运算 可 以 给 出 不 同 的 图 像 效 果 。 这 
里 ， 图 3-13 给 出 了 使 用 卷 积 进行 边缘 检测 〈 包 括 横向 边缘 检测 和 纵向 边缘 检测 ) 的 示例 。 我 们 可 
以 通过 在 图 像 项 部 移动 卷 积 过 滤器 以 便 在 每 个 位 置 产生 不 同 的 输出 来 实现 边缘 检测 ， 如 图 3-14 所 
示 ( 在 本 书 第 $ 章 介 绍 卷 积 神经 网 络 时 会 详细 解读 卷 积 运算 的 工作 原理 )。 具 体 来 说 , 在 每 个 位 置 ， 
我 们 使 用 与 卷 积 过 滤器 重生 的 图 像 块 (与 卷 积 过 滤器 相同 的 大 小 ) 对 卷 积 过 滤器 中 的 元 素 进 行 逐 元 
素 乘 法 ， 并 获取 乘法 的 总 和 。 


-1 -1 一 ! 
米 -1 8 一 二 
-1 -1 一 


3-13 ”利用 卷 积 运 算 在 图 像 中 进行 边缘 检测 示意 图 


源 自 https://en.wikipedia.org/wiki/Kernel (image_processing)。 


以 下 是 卷 积 运算 的 实现 : 


x = tf.constant( 
[[ 
[[1], [2], 53],[4]], 
[[4], [3], [2], [1]], 
[[5], [6], [7]，[8]]， 
[[8], [7], [6], [5]] 
]]， 
dtype=tf.float32) 
x filter = tf.constant( 
[ 
[ 
[[0.5]],[[1]] 
]， 
[ 
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[[0.5]],[[1]] 


dtype=tf.float32) 

x stride = [1,1,1,1] 

x padding = 'VALID' 

x conv = tf.nn.conv2d( 

input=x, filter=x filter, 
strides=x _ stride, padding=x padding 


) 


这 里 ， 对 于 萎 conv2d(.…) 方 法 中 涉及 的 input 、filter 和 stride 等 参数 格式 而 言 ，TensorFlow 对 
它们 的 要 求 是 很 精确 的 ， 下 面 我 们 将 对 这 些 参 数 (input、filter、strides、padding ) 做 进一步 的 解释 。 


@ 输入 (input): 通常 是 四 维 张 量 , 其 尺寸 应 按 [batch_ size，height，width，channels] 排 序 。 
克 batch_size: 这 是 一 批 数 据 中 的 数据 量 ( 例如 ， 输 入 的 图 像 和 单词 等 ) 。 我 们 通常 按 
批量 处 理 数据 , 因为 模型 可 以 使 用 大 型 数据 集 进行 深入 学 习 。 在 给 定 的 训练 步骤 ( step ) 
中 , 我们 随机 抽样 一 小 部 分 可 以 大 致 代表 完整 的 数据 集 的 数据 ， 然 后 重复 足够 多 次 该 
操作 ， 我 们 便 可 以 很 好 地 融 近 这 个 完整 的 数据 集 。 此 batch size 参数 与 我 们 在 
TensorFlow 输入 管道 示例 中 讨论 的 参数 相同 。 
六 height and width: 这 是 输入 的 高 度 和 宽度 。 
六 channels: 这 是 输入 的 深度 (例如 ， 对 于 RGB 图 像 ， 将 为 3 通道 ) 。 
@ 过 滤器 (filter ): 这 是 一 个 四 维 张 量 , 表示 卷 积 运算 的 卷 积 窗口 。 过 滤器 尺寸 应 为 [height， 
width, in_channels, out_channels]. 
六 height and width: 这 是 滤 镜 的 高 度 和 宽度 (通常 小 于 输入 的 高 度 和 宽度 ) 。 
妈 in channels: 这 是 图 层 输入 的 通道 数 。 
女 out_ channels: 这 是 在 图 层 输出 中 生成 的 通道 数 。 
@@ 步 幅 (strides) : 这 是 一 个 包含 四 个 元 素 的 列表 ， 具 体 为 [batch_stride，height stride， 
width _stride，channels_stride]。 
@ 填充 (padding) : 这 里 可 以 选择 [SAME'，'VALID'] 中 的 任何 一 个 选项 。 它 能 够 决定 如 何 
处 理 输入 边界 附近 的 卷 积 运算 。VALID 操作 是 在 没有 填充 的 情况 下 执行 卷 积 。 如 果 我 们 
用 大 小 为 h 的 卷 积 窗口 、 卷 积 长 度 为 n 的 输入 ， 这 将 给 出 输出 的 尺寸 (或 大 小 ) 。 输 出 
尺寸 的 减 小 会 严重 限制 神经 网 络 的 深度 。SAME 将 零 填 充 到 边界 ， 使 输出 具有 与 输入 相 
同 的 高 度 和 宽度 。 
为 了 更 好 地 了 解 过 滤器 大 小 、 步 幅 和 填充 是 什么 ， 请 参见 图 3-14 (我 们 在 本 书 第 5 章 介绍 卷 
积 神经 网 络 时 做 详细 解读 ) 。 
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1x1 + 0,5x2 + 
1x4 + 0.5x3 =7.5 


图 3-14 ” 卷 积 网 络 运算 示意 图 
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@@ 池 化 操作 

池 化 运算 与 卷 积 运算 的 行为 类 似 , 但 最 终 输 出 是 不 同 的 。 我 们 这 里 选取 的 是 该 位 置 中 图 像 patch 
的 最 大 元 素 ， 而 不 是 输出 过 滤器 和 图 像 patch 中 按 元 素 相 乘 得 到 的 总 和 我 们 在 在 本 书 第 5 章 介绍 
卷 积 神经 网 络 中 会 做 详细 解读 ) ， 如 图 3-15 所 示 。 


x = tf.constant( 

[[ 
[[1], [2], [3]，[4]]， 
[[4], [3], [2]，[1]]， 
[[5], [6], [7], [8]], 
[[8], [7], [6],[5]] 

]], 

dtype=tf.float32) 


x _ ksize = [1,2,2,1] 
x stride = [1,2,2,1] 
x padding = 'VALID' 
x pool = tf.nn.max pooll( 
value=x, ksize=x ksize, 
strides=x stride, padding=x _ padding 


3-15 ”最 大 池 化 运算 示意 图 


代码 运行 后 返回 的 结果 如 下 《完整 代码 和 结果 ， 读 者 可 以 查看 代码 文件 中 的 “二 维 操作 (2D 
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卷 积 和 2D 最 大 池 化 ) ”部 分 ) : 


[[[[ 4.] 

L311 

[[ 8.] 

[ 8.]]]] 

图 定义 损失 

为 了 让 神经 网 络 模型 能 够 学 习 到 有 用 的 东西 , 我 们 需要 定义 一 个 损失 函数 。 这 里 有 几 种 可 以 自 
动 计算 TensorFlow 中 损失 的 函数 。 其 中 ，tfnnl2 loss 是 均 方 误差 损失 函数 ， 
给 nn.softmax_cross_entropy_with_ logits_ v2 是 交叉 炉 损失 函数 。 交 叉 炉 损失 函数 在 分 类 任务 中 能 够 
使 模型 表现 更 佳 。 这 里 涉及 均 方 误差 损失 函数 和 交叉 箭 损失 函数 的 代码 如 下 ; 

x = tf.constant ([[2,4],[6,8]],dtype=tf.float32) 

x hat = tf.constant ([[1,2], [3,4]],dtype=tf.float32) 

# MSE = (1**2 + 2*#2 + 3#**2 + 4*#*2)/2 = 15 

MSE = tf.nn.12 loss(x-x hat) 

# 神经 网 络 中 用 于 优化 网 络 的 常见 损失 函数 

# 使 用 logits《〈 最 后 一 层 的 归 一 输出 ) 代 蔡 输出 来 计算 交叉 和 , 会 使 数值 获得 的 更 加 稳定 

Y = tf.constant ([[1,0], [0,1]],dtype=tf.float32) 

Y_hat = tf.constant ([[3,1], [2,5]],dtype=tf.float32) 

# 此 函数 并 不 能 平均 所 有 数据 点 的 交叉 焙 损 失 ， 我 们 需要 使 用 reduce_mean 函数 手动 实现 这 一 点 


CE = tf.reduce mean(tf.nn.softmax cross entropy with logits v2(logits=y hat, 
labels=y)) 


@ 神 经 网 络 的 优化 

在 定义 了 神经 网 络 的 损失 函数 之 后 , 我 们 的 目标 是 随 着 时 间 的 推移 尽量 减少 这 种 损失 , 这 个 过 
程 就 是 常 说 的 模型 优化 工作 。 换言之 , 优化 器 的 目标 是 找到 为 所 有 输入 提供 最 小 损失 的 神经 网 络 参 
数 〈 权 重 值 和 偏差 ) 。TensorFlow 为 我 们 提供 了 几 种 不 同 的 优化 器 ， 因 此 我 们 不 需要 从 头 开始 实 
现 相关 模型 。 

图 3-16 说 明了 一 个 简单 的 优化 问题 ， 并 显示 了 优化 是 如 何 随时 间 变 化 的 。 该 曲线 可 以 想象 为 
损失 曲线 (对 于 高 维 空间 的 情况 ， 我 们 称 之 为 损失 面 )， 其 中 x 可 以 被 认为 是 神经 网 络 的 参数 〈 在 
这 种 情况 下 ， 是 一 个 单一 权重 值 的 神经 网 络 ) ，y 可 以 被 认为 是 损失 。 我 们 初步 估计 起 始点 是 x=2 
位 置 。 从 这 一 点 开始 ， 我 们 使 用 优化 器 来 实现 在 x=0 处 得 到 最 小 的 y (损失 ) 。 然 而 ， 在 实际 问题 
中 ， 损 失 表面 不 会 像 图 3-16 中 所 示 的 这 么 简单 ， 它 会 更 加 复杂 。 
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优化 y=x2 


3-16 ”优化 过 程 示 意图 


在 此 示例 中 ， 我 们 使 用 的 是 常见 的 梯度 下 降 优 化 法 : GradientDescentOptimizer。learning_rate 
参数 表示 在 最 小 化 方向 上 的 步 长 (图 3-16 中 两 个 圆 点 之 间 的 距离 ) : 


# 优 化 器 起 到 调整 神经 网 络 参数 的 作用 ， 以 便 最 小 化 工作 任务 中 的 错误 

tf x = tf.Variable (tf.constant (2.0,dtype=tf.float32),name='x') 

tf y= tf x**2 

minimize op = tf.train.GradientDescentOptimizer (learning rate=0.1). 


minimize (tf y) 


完整 代码 详 见 代码 文件 3_tensorflow_introduction.ipynb 中 随机 优化 Stochastic Optimization) 
部 分 。 执 行 该 部 分 代码 后 ， 除 了 会 得 到 图 3-16 之 外 ， 还 会 得 到 如 下 结果 : 


第 1 个 步 长 上 , x: 1.28 ，Y: 2.5600002 

第 2 个 步 长 上 ,x: 1.0239999 ，Y: 1.6384 

第 3 个 步 长 上 ,x: 0.8191999 ，Y: 1.0485759 
第 4 个 步 长 上 ,x: 0.6553599 ，Y: 0.6710885 


从 上 面 的 代码 运行 结果 来 看 ， 显 然 ， 当 我 们 每 次 调用 session.run(minimize_op) 执 行 损失 最 小 化 
运算 时 ， 将 会 接近 tx 值 ， 进 而 可 以 得 到 最 小 的 世 y 值 。 

加 控制 流 操作 

顾名思义 ， 控 制 流 操作 控制 图 中 的 执行 顺序 。 例 如 ， 假 设 我 们 需要 按 以 下 顺序 执行 计算 : 


X = X+5 


Z = X*2 


实际 上 ， 如 果 x = 2， 我 们 应 该 得 到 z = 14。 下 面 ， 让 我 们 尝试 以 一 种 简单 的 方法 来 实现 这 一 


session = tf.InteractiveSession() 

X = tf.Variable(tf.constant (2.0), name='x') 
x assign op = tf.assign(x, x+5) 

溉 :二 圭 作 

tf.global variables initializer() .run() 
print('z=',session.run(z)) 


print('x=',session.run (x)) 


68 | TensorFlow 与 自然 语言 处 理应 用 


session.close() 


我 们 期 望 的 输出 结果 是 x = 7 和 z= 14， 而 在 TensorFlow 中 ， 上 面 的 代码 运行 结果 却 是 x = 2 
和 z= 14。 引 起 这 种 错误 的 原因 是 ，TensorFlow 不 关心 对 象 的 执行 顺序 ， 除 非 我 们 在 程序 中 给 出 明 
确 的 执行 顺序 。 我 们 本 部 分 讨论 的 控制 流 操作 ， 就 可 以 实现 执行 指定 顺序 的 操作 。 为 了 得 到 期 望 的 
运行 结果 (x=7 和 z=14) ， 我 们 需要 对 上 述 代码 进行 调整 ， 具 体 如 下 : 


Session = tf.InteractiveSession() 

x = tf.Variable(tf.constant (2.0), name='x') 

with tf.control dependencies([tf.assign(x, x+5)]): 
z = Xx*2 

tf.global variables initializer() .run() 

print('z=',session.run(z)) 

print('x="',session.run (x)) 


session.close() 


这 样 一 来 , 我 们 就 可 以 得 到 想 要 的 结果 (x=7 和 z=14) 了 。 这 里 , tf.control_ dependencies (…) 
方法 是 确保 在 执行 嵌 套 操作 之 前 将 会 优先 执行 参数 传递 给 它 的 运算 操作 。 读 者 也 可 以 在 代码 文件 
“调用 萎 control dependencies(.…) 方 法 ”部 分 执行 这 些 代码 并 查看 运行 结果 。 


3.10 ”变量 作用 域 机制 
3.10.1 基本 原理 


目前 为 止 ， 我们 已 经 对 TensorFlow 架构 和 TensorFlow 客户 端的 实现 有 了 基本 的 认识 。 但 是 ， 
在 深度 学 习 过 程 中 ， 一 方面 ， 我 们 需要 减少 训练 参数 的 个 数 〈 比 如 CNN 和 LSTM 模型 ) 或 是 面 对 
多 机 多 卡 并 行 化 训练 大 数据 大 模型 (比如 数据 并 行 化 ) 等 情况 ， 另 一 方面 ， 当 我 们 的 深度 学 习 模 型 
变 得 异常 复杂 的 时 候 , 往往 存在 大 量 的 变量 和 调用 方法 , 如 何 有 效 地 维护 这 些 变量 名 称 和 方法 名 称 
的 唯一 性 〈 即 不 重复 ) ， 同 时 又 能 维护 好 一 个 条 理 清晰 的 图 (Graph) 就 变 得 非常 重要 了 。 这 时 ， 
变量 共享 机 制 就 变 得 非常 重要 。 比 如 ， 我 们 构建 CNN、LSTM 等 模型 时 ， 和 需要 使 用 很 多 变量 集 去 
验证 权重 值 (Weight) 和 偏差 (Bias) 等 训练 参数 ， 非 常 希望 在 输入 不 同 的 数据 时 这 些 参数 是 可 以 
共享 的 〈 本 书 5.3.4 小 节 “ 参 数 共享 机 制 ” 部 分 会 进行 详细 解读 ) 。 过 去 ， 我 们 创建 一 个 全 局 变量 
就 可 以 使 用 了 ， 但 在 深度 学 习 中 则 不 可 以 ， 不 方便 管理 而 且 使 代码 的 封装 性 受到 极 大 影响 。 所 以 ， 
TensorFlow 提供 了 一 种 变量 管理 方法 : 变量 作用 域 机 制 ， 以 此 解决 上 面 出 现 的 问题 。 

关于 变量 作用 域 机 制 ， 有 的 文档 也 叫 共 享 变 量 机 制 , 根据 笔者 查阅 的 文献 资料 ， 大 部 分 文章 的 
参考 资料 来 自 于 TensorFlow 官方 说 明 ( 详 见 https://tensorflow.google.cn/guide/variables)。TensorFlow 
中 是 通过 调用 四 个 函数 来 进行 变量 作用 域 共享 的 ， 这 四 个 函数 是 信 Variable(<variable_name>)、 
tf.get_variable(<variable_ name>)、 tf.name scope(<scope name>) 和 tfvariable_scope(<scope_name>)。 


下 面 ， 我 们 具体 来 看 一 下 这 几 个 函数 。 
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如 果 使 用 Variable, 那么 每 次 都 会 新 建 变量 , 但 是 大 多 数 时 候 我 们 是 希望 一 些 变量 可 以 重用 的 ， 
所 以 就 用 到 了 get variable0。get_variable0) 会 去 搜索 变量 名 称 ， 搜 索 结果 如 果 没有 就 新 建 变量 ， 如 
果 有 就 直接 使 用 该 变量 。 既 然 用 到 变量 名 称 ， 这 就 会 涉及 名 称 域 的 概念 。 通 过 不 同 的 域 来 对 变量 名 
称 加 以 区 分 , 因为 如 果 让 我 们 给 所 有 变量 都 直接 取 不 同名 字 其 实 是 非常 辛苦 的 且 没 必要 , 这 就 是 为 
什么 会 用 到 作用 域 (Scope) 的 概念 了 .name _ scope 主要 用 于 图 (Graph) 中 的 各 种 运算 , variable_ scope 
可 以 通过 设置 reuse 标志 以 及 初始 化 方式 来 影响 作用 域 中 的 变量 。 当 然 对 我 们 而 言 ， 还 有 一 个 更 直 
观 的 感受 就 是 : 在 使 用 tensorboard 可 视 化 的 时 候 用 名 字 作 用 域 进行 封装 后 会 更 清晰 。 


3.10.2 ”通过 示例 解读 


假设 我 们 需要 一 个 执行 某 种 计算 的 函数 ， 给 定 w， 需 要 计算 x* w +y** 2。 让 我 们 编写 一 个 
TensorFlow 客户 端 : 


import tensorflow as tf 

session = tf.InteractiveSession() 

def very simple computation (w) : 
x= tf.Variable (tf.constant (5.0, shape=None, dtype=tf.float32),name='x') 
y= tf.Variable (tf.constant (2.0, shape=None, dtype=tf.float32),name='y') 
和 
return 2z 


这 里 ， 为 了 得 到 想 要 的 结果 ， 我 们 可 以 调用 session.run (very_simple_computation (2) ) 函数 
(当然 是 在 调用 萎 global_variables_initializerO.run0 函 数 之 后 ) 。 实 际 上 , 每 次 调用 这 个 函数 时 都 会 
创建 两 个 TensorFlow 变量 。 在 多 次 调用 该 方法 (在 面向 对 象 程序 设计 中 把 封装 的 函数 也 称 为 方法 ) 
时 ， 图 (Graph) 中 x 和 y 变量 不 会 被 替换 ， 相 反 ， 将 会 保留 这 些 旧 变量 ， 并 在 图 (Graph) 中 创建 
新 的 变量 ， 直 到 内 存 不 足 为 止 。 不 管 如 何 ， 最 终 的 结果 是 正确 的 。 为 了 更 好 地 验证 这 个 情况 ,我们 
在 for 循环 中 运行 session.run(very_simple_computation(2)) 方 法 , 并 将 变量 名 称 也 打印 出 来 , 循环 10 
次 的 输出 结果 如 下 完整 的 代码 请 在 ch3 文件 夹 中 的 3_tensorflow_introduction.ipynb 文件 “变量 作 
用 域 机 制 (Variable Scoping) ”部 分 查看 ) : 

14.0 

四 
可 MR SO "yy SD ?RE Gu" "YO VR TON VY Te0rsy "RE G50"7 "YOO 
'x 9:0', 'y 9:0', 'x 10:0', 'y 10:0'] 


每 次 运行 该 函数 时 都 会 创建 一 对 变量 。 如 果 运 行 这 个 函数 100 次 , 那么 计算 图 中 将 有 198 个 过 
时 变量 (99x 变量 和 99y 变量 ) 。 

作用 域 允许 我 们 重复 使 用 变量 , 而 不 是 每 次 调用 函数 时 都 创建 一 个 新 的 变量 。 我 们 现在 为 上 面 
的 例子 添加 变量 可 复 用 性 的 操作 ， 将 代码 更 改 为 以 下 内 容 : 


def not_so_simple_computation(w) : 
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xX = tf.get variable('zx', initializer=tf.constant (5.0, 
shape=None, dtype=tf.float32)) 
Y = tf.get variable('y', initializer=tf.constant(2.0, 
shape=None, dtype=tf.float32)) 
Zz = XW + Yy**2 
return 2z 
def another not so simple computation (w): 
x = tf.get variable('x', initializer=tf.constant(5.0, 
shape=None, dtype=tf .float32)) 
Y = tf.get variable('y', initializer=tf.constant(2.0, 
shape=None, dtype=tf .float32)) 
ZzZ = Ww*x*y 
return z 
# 这 是 第 一 次 调用 ， 因 此 将 使 用 以 下 名 称 创建 变量 
# x => scopeA/x, y => scopeR/Y 
with tf.variable scope('scopeA'): 
Zz1 = not_ so _ simple computation(tf.constant (1.0, dtype=tf.float32)) 
# 我 们 重复 使 用 已 创建 的 scopeA/x 和 scopeA/y 
with tf.variable scope('scopeA',reuse=True): 
2z2 = another not_ so_ simple computation(z1) 
# 由 于 这 是 第 一 次 调用 ， 因 此 将 使 用 以 下 名 称 创建 变量 : x => scopeB/x, y => scopeB/y 
with tf.variable scope('scopeB'): 
al = not_ so_simple computation(tf.constant (1.0, dtype=tf.float32)) 
# 我 们 重复 使 用 已 创建 的 scopeB/x 和 scopeB/y 


with tf.variable scope('scopeB',reuse=True): 
a2 = another not so_simple computation (al) 

# 假设 我 们 想 再 次 重复 使 用 “scopeA”， 因 为 已 经 创建 了 变量 ， 

# 所 以 我 们 应 该 在 调用 时 将 “reuse” 参 数 设置 为 True 

with tf.variable scope('scopeA',reuse=True): 
Zz1 = not_so_simple computation(tf.constant (1.0, dtype=tf.float32)) 
ZZz2 = another not so simple computation(z1) 


在 这 个 例子 中 ， 如 果 执 行 sessionrun ([zl，zZ2，al，a2，zzl，zz2]) 操作 ， 就 应 该 会 看 到 
Z1,Z2.a1,a2,zz1,zz2 的 值 按 顺序 为 9.0,90.0,9.0,90.0,9.0,90.0 值 。 现 在 ， 如 果 打 印 变量 ， 应 该 只 看 到 
四 个 不 同 的 变量 : scopeA /x、scopeA /y、scopeB /x 和 scopeB /y。 我 们 现在 可 以 在 循环 中 多 次 运 
行 它 ， 而 不 必 担 心 创建 元 余 变 量 和 内 存 不 足 。 

现在 你 可 能 想 知道 , 为 什么 我 们 不 能 在 代码 的 开头 创建 这 四 个 变量 并 在 后 面 的 方法 中 使 用 它们 。 
如 果 这 样 做 ， 就 会 破坏 代码 的 封装 性 ， 因 为 这 样 是 在 明显 地 依赖 于 代码 之 外 的 内 容 。 

最 后 ， 作 用 域 支持 了 可 复 用 性 ， 同 时 也 保留 了 代码 的 封装 性 。 此 外 ， 作 用 域 使 代码 流 更 直观 ， 
减少 了 错误 的 可 能 性 ， 因 为 我 们 通过 作用 域 和 名 称 显 式 地 获取 变量 ， 而 不 是 使 用 TensorFlow 变量 
分 配 的 Python 变量 。 
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3.11 ”实现 一 个 神经 网 络 


目前 ， 我 们 已 经 对 TensorFlow 的 架构 体系 和 作用 域 机 制 有 了 大 体 的 认 知 ， 接 下 来 ， 我 们 将 实 
现 一 个 稍微 复杂 的 模型 , 那 就 是 完全 连接 的 神经 网 络 模型 。 这 里 使 用 的 数据 集 是 在 深度 学 习 过 程 中 
都 经 常 使 用 的 MNIST 数据 集 ( 详 见 http://yann.lecun.com/exdb/mnist/) ， 利 用 神经 网 络 模型 能 够 实 
现 对 数字 进行 分 类 。 

由 于 这 是 我 们 的 第 一 个 神经 网 络 示例 ,因此 , 我 们 将 逐步 介绍 其 中 的 关键 部 分 。 如 果 要 了 解 程 
序 从 头 到 尾 的 运行 情况 , 读者 可 以 在 ch3 文件 夹 中 的 3_tensorflow_introduction.ipynb 文件 “MNIST 
数字 识别 分 类 ”部 分 自行 查验 。 


3.11.1 数据 准备 


首先 , 我 们 需要 调用 maybe_download(...) 函 数 来 下 载 数据 集 ， 并 调用 read_mnist(.…) 函 数 对 其 进 
行 预 处 理 。 这 里 ，read_mnist(..) 函 数 执行 以 下 两 个 主要 步 又: 


@@。” 读 取 数 据 集 的 字 节 流 并 将 其 形成 适当 的 NUPYP.NDARRY 对 象 。 将 图 像 标准 化 为 零 均值 
和 单位 方差 。 


def read mnist (fname img, fname lb1) : 

print('\nReading files %s and %s'%(fname img, fname 1b1)) 

with gzip.open (fname img) as fimg: 
magic, num, rows, cols = struct.unpack(">IIII", fimg.read(16)) 
print (num, rows, cols) 
img = (np.frombuffer (fimg.read (num*rows*cols), dtype=np.uint8). 

reshape (num, rows * cols)) .astype (np.float32) 

print(' (Images) Returned a tensor of shape ',img.shape) 
# 对 图 像 进行 标准 化 处 理 
img = (img - np.mean(img))/np.std(img) 

with gzip.open (fname_ lbl) as flbl: 
#f1bl .read(8) 读 取 最 多 8 个 字 节 
magic, num = struct.unpack(">II", flbl.read(8)) 
lbl = np.frombuffer (flbl .read (num), dtype=np.int8) 
print(' (Labels) Returned a tensor of shape: %s'%1bl.shape) 
print('Sample labels: ',1lbl[:10]) 


return img, lbl 


3.11.2 ”定义 TensorFlow 计算 图 


为 了 定义 TensorFlow 计算 图 ， 我 们 首先 为 输入 图 像 (tf input〉 和 其 对 应 标签 (tf lab) 定义 占 
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# 定义 输入 和 输出 


tf inputs = tf.placeholder (shape=[batch size, input size], dtype=tf.float32, 
name 


"inputs') 


tf labels = tf.placeholder (shape=[batch size, num labels], dtype=tf.float32, 
name = 'labels') 


接 下 来 ， 编 写 一 个 Python 函数 ， 它 将 首次 创建 变量 。 需 要 说 明 的 是 ， 我 们 使 用 作用 域 来 确保 
变量 的 可 重用 性 ， 并 确保 变量 被 正确 命名 : 


# 定义 TensorFlow 相关 变量 


def define net parameters(): 


with tf.variable scope('layerl'): 
tf.get variable (WEIGHTS STRING, shape=[input size,500], 
initializer=tf.random normal initializer(0,0.02)) 
tf.get variable (BIAS STRING, shape=[500], 


initializer=tf.random uniform initializer(0,0.01)) 


with tf.variable scope('layer2'): 
tf.get variable (WEIGHTS_ STRING, shape=[500,250], 


initializer=tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape=[250], 


initializer=tf.random uniform initializer(0,0.01)) 


with tf.variable scope('output'): 
tf.get variable (WEIGHTS_ STRING, shape=[250,10], 


initializer=tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape=[10], 


initializer=tf.random uniform initializer(0,0.01)) 


下 面 , 我 们 将 定义 神经 网 络 的 推理 过 程 。 这 里 需要 说 明 一 点 , 就 是 与 没有 使 用 作用 域 的 变量 相 
比 ， 作 用 域 为 函数 中 的 代码 提供 了 非常 直观 的 流程 。 这 里 的 神经 网 络 有 三 层 ， 具 体 如 下 : 

@ ”具有 ReLU 激活 的 完全 连接 层 (第 1 层 ) 。 

@ 具有 ReLU 激活 的 完全 连接 层 (第 2 层 )。 

@ ”完全 连接 的 softmax 层 (输出 ) 。 


通过 作用 域 , 我 们 将 每 个 层 的 变量 (权重 值 和 偏差 ) 命名 为 layerl / weight、 layerl / bias、 layer2 
/ weight、layer2 / bias、output / weights 和 output /bias。 在 下 面 的 代码 中 ,它们 都 具有 相同 的 名 称 ， 
但 作用 域 是 不 同 的 : 


# 在 神经 网 络 中 定义 根据 输入 进行 逻辑 推理 的 计算 过 程 
#1ogit 是 将 softmax 应 用 到 最 终 输出 之 前 的 评估 模型 


def inference (x): 
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# calculations for layer 1 

with tf.variable scope('layerl',reuse=True): 
Wb=tf.get variable (WEIGHTS STRING), tf.get variable (BIAS STRING) 
tf hl = tf.nn.relu(tf.matmul (x,w) + b, name = "hidden]1') 


# calculations for layer 2 

with tf.variable scope('layer2',reuse=True): 
Wb=tf.get variable (WEIGHTS STRING), tf.get variable (BIAS STRING) 
tf h2 = tf.nn.relu(tf.matmul (tf hl,w) + b, name = 'hiddenl1') 


# calculations for output layer 
with tf.variable scope('output',reuse=True): 
Wb = tf.get variable (WEIGHTS STRING), 
tf.get variable (BIAS STRING) 
tf logits = tf.nn.bias add(tf.matmul (tf h2,w), b, name = 'logits') 


return tf logits 


现在 , 我 们 将 定义 一 个 损失 函数 并 将 损失 进行 最 小 化 操作 。 损失 最 小 化 操作 是 通过 在 最 小 化 损 
失 方向 上 对 神经 网 络 参数 进行 微 移 来 开展 的 。TensorFlow 中 提供 了 多 种 优化 器 ， 我 们 在 这 里 将 使 
用 MomentumOptimizer， 它 提供 了 比 GradientDescentOptimizer 更 好 的 最 终 精 度 和 收敛 性 : 


# 定义 损失 函数 

tf loss = 
tf.reduce mean(tf.nn.softmax cross entropy with logits v2(logits=inference (tf_ 
inputs), labels=tf labels)) 


# 定义 损失 优化 函数 


tf loss minimize = tf.train.MomentumOptimizer (momentum=0.9, 


learning rate=0.01) .minimize (tf loss) 


最 后 , 我 们 将 定义 一 个 操作 来 检索 给 定 批量 输入 所 预测 的 softmax 概率 。 这 个 预测 值 将 反 过 来 用 于 计算 
神经 网 络 的 准确 性 : 


# 定义 预测 


tf predictions = tf.nn.softmax (inference (tf inputs)) 


3.11.3 ”运行 神经 网 络 


现在 , 我 们 实现 了 运行 神经 网 络 所 需要 的 所 有 基本 操作 ， 可 以 对 它 进行 检查 , 看 它 是 否 有 能 力 
学 习 对 图 像 中 的 数字 进行 正确 分 类 : 
for epoch in range (NUM EPOCHS): 


train loss = [] 
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# 训练 阶段 

for step in range(train inputs.shape[0]//batch size): 
# Creating one-hot encoded labels with labels 
# One-hot encoding dight 3 for 10-class MNIST data set will result in 
# [0,0,0,1,0,0,0,0,0,0] 
labels one hot = np.zeros((batch size, num labels),dtype=np.float32) 
labels one hot[np.arange (batch size),train labels[step*batch size: 

(step+1)*batch size]] = 1.0 


# 运行 优化 程序 

1oss，_=session.run([tf loss,tf loss minimize],feed dict={ tf _ inputs: 
train inputs[step*batch size: (step+1)*batch size,:], tf labels: 
labels_one hot} ) 


train loss.append (loss) 


test accuracy = [] 
# 测试 阶段 
for step in range (test_inputs.shape[0] //batch size) : 
test predictions = session.run(tf predictions,feed dict={tf inputs: 
test inputs[step*batch size: (step+1)*batch size,:]}) 
batch test accuracy = accuracy (test predictions, 
test labels[step*batch size: (step+1)*batch size]) 
test_accuracy.append (batch test accuracy) 


print('Average train loss for the %d 
epoch: %.3f\n'% (epocht+l,np.mean (train loss))) 
train loss over time.append(np.mean(train loss)) 
print('\tAverage test accuracy for the %d 
epoch: %.2f\n'g (epoch+l,np.mean (test_accuracy)*100.0)) 


test accuracy over _ time.append (np.mean (test accuracy)*100) 
在 这 段 代码 中 ，accuracy(test_prediction，test_tags) 是 一 个 函数 ， 它 接受 一 些 预 测 和 标签 作为 输 


入 ， 并 提供 准确 性 (有 多 少 预 测 与 实际 标签 匹配 ) 。 最 终 ， 我 们 会 得 到 类 似 于 图 3-17 所 示 的 示意 
图 ， 从 运行 的 结果 来 看 ， 该 模型 表现 良好 ， 读 者 也 可 以 自行 运行 代码 进行 查验 。 
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训练 数据 的 损失 随时 间 的 变化 测试 数据 的 准确 率 随时 间 的 变化 


测试 数据 的 准确 率 


训练 数据 的 平均 损失 _ 


3 
Epochs Epochs 


3-17 MNIST 数字 分 类 任务 的 训练 损失 和 测试 准确 性 示意 图 
3.12 总结 


在 本 章 中 ， 我们 通过 一 些 示 例 对 算法 的 主要 底层 平台 (TensorFlow) 有 了 大 体 上 的 认 知 ， 从 而 
迈 出 了 解决 NLP 任务 的 第 一 步 。 

首先 , 我 们 讨论 了 TensorFlow 的 概念 、 主 要 特征 及 其 安装 情况 。 谷 歌 推 出 的 TensorFlow 是 一 
个 采用 数据 流 图 .用 于 数值 计算 的 开源 软件 库 。 它 有 一 些 主要 特征 , 例如 自动 求 微分 、 多 语言 支持 、 
高 度 的 灵活 性 、 可 移植 性 、 性 能 最 优化 等 。 对 于 TensorFlow 的 安装 ， 我 们 重点 介绍 了 Linux 下 的 
安装 情况 。 

其 次 ， 我 们 对 于 TensorFlow 的 三 个 主要 组 成 部 分 (计算 图 、 张 量 和 会 话 ) 进行 了 详细 解读 。 
概括 起 来 讲 , 我 们 可 以 用 张 量 表示 数据 ， 用 计算 图 搭建 神经 网 络 ， 用 会 话 执行 计算 图 ， 再 优化 计算 
图 中 线 上 的 权重 值 (参数) 后 得 到 模型 。 

然后 ， 我 们 对 于 TensorFlow 的 工作 原理 进行 了 深度 解读 ， 了 解 到 TensorFlow 是 一 个 
“client 一 master 一 Worker” 分 布 式 的 架构 系统 。 

客户 端 借助 于 会 话 界面 可 以 和 master 进行 交互 ,把 将 要 触发 执行 的 请 求 发 送 给 master, 而 master 
则 会 把 全 部 要 执行 的 任务 分 配给 单个 或 多 个 worker， 对 应 的 结果 通过 master 再 返回 给 客户 端 。 作 
为 专注 于 执行 计算 的 worker， 任 何 一 个 worker 进程 都 在 管理 并 使 用 着 整个 计算 硬件 资源 ， 进 而 采 
取 最 优 的 工作 方式 来 计算 子 图 。 

下 面 我 们 通过 一 个 sigmoid 示例 对 TensorFlow 进行 更 深 一 层 的 解读 ， 并 且 在 后 面 结合 该 示例 
对 TensorFlow 的 客户 端 做 了 专门 的 深度 解读 。 

接 下 来 ， 我 们 详细 讨论 了 构成 一 个 典型 TensorFlow 客户 端的 常见 元 素 : 输入 、 变 量 、 输 出 和 
运算 (或 操作 ) 。 输 入 是 我 们 提供 给 算法 的 数据 ， 目 的 是 用 于 模型 的 训练 和 测试 。 我 们 讨论 了 三 种 
不 同 的 输入 方式 : 使 用 占 位 符 、 预 加 载 数据 并 将 数据 存储 为 TensorFlow 张 量 以 及 使 用 输入 管道 。 
然后 我 们 讨论 了 TensorFlow 变量 ， 它 们 与 其 他 张 量 的 区 别 ， 以 及 如 何 创建 和 初始 化 变量 。 之 后 ， 
我 们 讨论 了 如 何 使 用 变量 来 创建 中 间 和 最 终 的 输出 。 最 后 ， 我 们 讨论 了 几 个 可 用 的 TensorFlow 运 
算 或 操作 , 例如 数学 运算 、 和 矩阵 运算 、 神 经 网 络 相关 的 运算 和 控制 流 的 操作 ， 这 些 运 算 和 操作 将 在 
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本 书后 面 使 用 。 在 对 这 些 常见 元 素 解读 的 过 程 中 , 我 们 逐步 分 析 并 结合 代码 加 以 实现 ,力求 让 每 一 
位 读者 都 能 够 更 直观 地 理解 其 内 在 逻辑 和 实现 机 制 。 

我 们 还 讨论 了 在 实现 TensorFlow 客户 端 时 如 何 使 用 变量 作用 域 来 避免 某 些 缺 陷 。 作 用 域 允许 
我 们 轻松 使 用 变量 ， 同 时 也 能 保持 代码 的 封装 性 。 

最 后 ， 我 们 使 用 之 前 学 习 的 所 有 概念 实现 了 一 个 神经 网 络 ， 我 们 使 用 三 层 神 经 网 络 对 MNIST 
数字 数据 集 进行 分 类 。 

下 一 章 ， 我 们 将 正式 开始 讲解 NLP 领域 的 重要 模型 : 词 嵌入 (Word Embedding) 。 


根据 维基 百科 ， 词 嵌入 (Word Embedding) 被 定义 为 自然 语言 处 理 (NLP) 中 的 一 组 语言 建 
模 和 特征 学 习 技术 的 集体 名 称 ， 其 中 来 自 词汇 表 的 单词 或 短语 被 映射 成 实数 向 量 。 

词 嵌 入 是 一 种 将 文本 中 的 词 转换 为 数字 向 量 的 方法 ,我 们 为 了 使 用 标准 机 器 学 习 算 法 来 对 它们 
进行 分 析 ， 就 需要 把 这 些 被 转换 成 数字 的 向 量 以 数字 的 形式 作为 输入 。 词 嵌入 过 程 就 是 把 一 个 维 
数 为 所 有 词 数量 的 高 维 空间 嵌入 到 一 个 维 数 低 得 多 的 连续 向 量 空间 中 , 每 个 单词 或 词组 被 映射 
为 实数 域 上 的 向 量 ， 词 嵌入 的 结果 就 是 生成 了 词 向 量 。 

我 们 知道 ， 有 一 种 被 称 为 One-Hot 编码 〈 被 称 为 独 热 码 或 独 热 编码 ) 的 词 向 量 。One-Hot 编码 
是 最 基本 的 向 量 方法 。 回 顾 一 下 ，One-Hot 编码 通过 词汇 表 大 小 的 向 量 表示 文本 中 的 词 ， 其 中 只 有 
对 应 于 该 词 的 项 是 1 而 所 有 其 他 项 都 是 零 。 

One-Hot 编码 的 主要 问题 是 无 法 表示 词 之 间 的 相似 性 。 在 任何 给 定 的 语料库 中 ， 我们 会 期 望 诸 
如 〈 狗 , 猫 ) 、( 碗 ,和 馈 子 ) 之 类 的 词 对 具有 一 些 相似 性 。 使 用 点 积 计 算 向 量 之 间 的 相似 性 。 点 积 是 
向 量 元 素 之 间 元 素 乘法 的 总 和 。 在 One-Hot 编码 向 量 的 情况 下 , 语料库 中 任何 两 个 词 之 间 的 点 积 总 

为 了 克服 One-Hot 编码 的 局 限 性 ，NLP 领域 借用 了 信息 检索 ( 芒 ) 技术 ， 使 用 文档 作为 上 下 
文 来 对 文本 进行 矢量 化 。 值 得 注意 的 技术 是 TF-IDF(Chttps://en.wikipedia.org/wiki/Tf?6E29%680%93idf)、 
潜在 语义 分 析 (LSA ，https:/en.wikipedia.org/wiki/Latent_semantic_ analysis ) 和 主题 建 模 
(https://en.wikipedia.org/wiki/Topic_model) 。 然 而 ， 这 些 技术 获取 到 略微 不 同 的 、 以 文档 为 中 心 
的 语义 相似 性 。 

词 嵌 入 技术 的 开发 始 于 2000 年 。 词 嵌入 与 以 前 基于 IR 的 技术 的 不 同 之 处 在 于 , 它们 使 用 词 作 
为 其 上 下 文 ， 从 人 类 理解 的 角度 来 看 ， 这 得 到 了 更 自然 的 语义 相似 性 形式 。 今 天 ， 词 嵌入 是 各 种 
NLP 任务 中 文本 向 量化 的 首选 技术 ， 例 如 词性 标注 、 命 名 实体 识别 、 文 本 分 类 、 文 档 聚 类 、 情 感 
分 析 、 文 档 生 成 、 问 答 系统 等 。 

在 本 章 中 ， 我 们 将 对 分 布 式 表 示 、Word2Vec 的 两 种 模型 、 两 种 模型 对 比 、Word2Vec 扩展 模 
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型 和 GloVe 模型 进行 探讨 和 分 析 ， 最 后 我 们 介绍 利用 相关 模型 进行 句子 分 类 的 案例 。 这 些 词 嵌入 
技术 已 经 被 证 明 更 有 效 ， 且 已 在 深度 学 习 和 NLP 领域 中 得 以 广泛 采用 。 


4.1 分 布 式 表 示 
4.1.1 分 布 式 表示 的 直观 认识 


这 里 有 两 个 句子 : 


@ 北京 是 中 国 的 首都 。 

@ ”华盛顿 是 美国 的 首都 。 

从 这 两 个 句子 中 ,我们 可 以 直观 地 意识 到 (北京 ,华盛顿 ) 和 (中 国 , 美国 ) 这 两 对 词 在 某 种 程度 上 
是 相关 的 ， 并 且 相 应 的 词 在 每 对 中 彼此 以 相同 的 方式 相关 ， 即 : 

北京 : 中 国 一 一 华盛顿 : 美国 

因此 ， 分 布 式 表示 (Distributed Representation) 的 目的 是 找到 一 个 变换 函数 ， 以 便 将 每 个 词 
转换 为 其 相关 的 向 量 ， 使 得 以 下 形式 的 关系 成 立 : 

中 (“北京 ”)- (“中国”) 中 (“ 华 盛 顿 ”) - 中 (“美国 ”) 

换 句 话说 , 分 布 式 表示 则 在 将 词 转换 为 向 量 , 其 中 向 量 之 间 的 相似 性 与 词 之 间 的 语义 相似 性 相 
关 。 


有 的 图 书 上 将 GloVe 归 入 Word2Vec， 这 么 归 类 也 可 以 理解 ， 词 谈 入 实现 的 技术 模型 有 多 
种 ， 不 论 是 Word2Vec 中 的 两 个 典型 模型 ( Skip-gram 和 CBOW ) 还 是 GloVe 模型 ， 都 是 
处 理 词 谋 入 任务 的 技术 手段 ， 但 严格 意义 上 Word2Vec 和 GloVe 之 间 还 是 有 些 区 别 的 。 


4.1.2 分布 式 表示 解读 


早期 的 传统 独 热 编码 表示 (One-Hot Encoding Representation， 如 图 4-1 所 示 ) ， 仅 仅 将 词 进行 
符号 化 ,不 包含 任何 语义 信息 ， 显 然 不 利于 工作 任务 的 有 效 达 成 。 与 独 热 编 码 表 示 技 术 相对 应 的 就 
是 分 布 式 表 示 ，Haris 于 1954 年 提出 了 分 布 式 假说 (Distributional Hypothesis) ， 其 观点 是 上 下 
文中 相似 的 词 其 语义 也 相似 。 这 样 一 来 , 在 该 理论 指引 下 , 我 们 可 以 把 信息 分 布 式 地 存储 在 向 量 的 
各 个 维度 中 , 这 种 分 布 式 表示 方法 具有 紧密 低 维 、 句法 和 语义 信息 易 获 取 的 特点 。 Firth 在 1957 年 
对 分 布 式 假说 做 了 进一步 阐述 和 明确 : 词 的 语义 由 其 上 下 文 决定 。 
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独 热 表示 ( one-hot representation ) 
。 在 高 维 向 量 中 只 有 一 个 维度 搓 述 了 词 的 信息 
as 夏 一 
话 简 :[001000000000000.] 
妻 克 :[000000001000000.…] 
se 应 用 
+ 词 纹 模 型 ( bag-of-words, BOW ) 
* 简单 易 实现 
.缺点 
， 高 维 、 稀 下 
* 没有 词 序 信息 
”无 法 准确 捕 反 滞 义 信息 ， 词 汇 汐 沟 : 任意 词 之 间 是 现 立 的 ， 即 使 是 同 义 河 


4-1 传统 的 独 热 编码 技术 表示 


基于 分 布 式 假说 的 词 表示 方法 ， 根 据 建 模 不 同 ， 大 体 可 以 分 为 三 类 : 基于 矩阵 的 分 布 表 示 、 基 
于 聚 类 的 分 布 表示 和 基于 神经 网 络 的 分 布 表示 。 尽 管 这 些 不 同 的 分 布 表示 方法 使 用 了 不 同 的 技术 手 
段 获取 词 表 示 , 但 由 于 这 些 方法 均 基于 分 布 式 假说 ， 所 以 它们 的 核心 思想 也 都 由 两 部 分 组 成 : 一 是 
选择 一 种 方式 描述 上 下 文 ， 二 是 选择 一 种 模型 刻画 某 个 词 (“目标 词 ”) 与 其 上 下 文 之 间 的 关系 。 

下 面 给 出 分 布 式 表示 方法 的 三 个 分 类 , 这 里 不 做 过 多 解读 , 感 兴趣 的 读者 可 以 仔细 研读 来 斯 惟 
博士 的 论文 《基于 神经 网 络 的 词 和 文档 语义 向 量 表示 方法 研究 》 〈 中 国 科 学 院 大 学 自动 化 研究 所 ， 
2016 年 1 月 ) 。 

1. 基于 矩阵 的 分 布 表示 

基于 算 阵 的 分 布 表示 主要 是 构建 “ 词 - 上 下 文 ” 窍 阵 ， 通 过 某 种 技术 从 该 矩阵 中 获取 词 的 分 布 
表示 。 和 拢 阵 的 行 表示 词 ， 列 表示 上 下 文 ， 每 个 元 素 表示 某 个 词 和 上 下 文 共 现 的 次 数 ， 这 样 窍 阵 的 一 
行 就 描述 了 该 词 的 上 下 文 分 布 情况 。 常 见 的 上 下 文 有 : @ 文 档 ， 即 “ 词 -文档 ”矩阵 ; @ 上 下 文 的 
每 个 词 ， 即 “ 词 - 词 ”和 矩阵 ，@n- 元 词组 ， 即 “ 词 -n- 元 组 ” 算 了 泗 。 甜 阵 中 的 每 个 元 素 为 词 和 上 下 
文 共 现 的 次 数 ， 通 常会 利用 TF-IDF、 取 对 数 等 方法 进行 加 权 和 平滑 。 另 外 ， 和 矩阵 的 维度 较 高 并 且 
非常 稀疏 的 话 ， 可 以 通过 SVD、NMEF 等 手段 进行 分 解 降 维 ， 变 为 低 维 稠 密 和 矩阵 。 关 于 矩阵 的 分 布 
表示 见 图 4-2。 


@ ”构建 一 “ 词 -上 下 文 ”矩阵 ， 从 和 矩 阵 中 获取 词 的 表示 。 和 矩阵 中 ， 每 行 对 应 一 
个 词 ， 每 列表 示 一 种 不 同 的 上 下 文 ， 和 矩阵 中 的 每 个 元 素 对 应 相关 词 和 上 下 文 的 共 现 
信息 。 

。 构建 步骤 


选取 上 下 文 : 词 -文档 ， 词 - 词 ， 词 -n 元 词组 
确定 拒 阵 在 中 元 素 的 值 ， 共 现 次 数 ，TE.IDF 
矩阵 分 解 ， SVD.PCA 

@ ”代表 模型 © LsA 


. GloVe(Global Vector) 


图 4-2 ”基于 答 阵 的 分 布 表示 
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2. 基于 聚 类 的 分 布 表示 
通过 聚 类 手段 构建 词 与 其 上 下 文 之 间 的 关系 , 代表 模型 为 布朗 聚 类 (Brown Clustering) 。 
3. 基于 神经 网 络 的 分 布 表示 

(1) 神经 网 络 语言 模型 (Neural Network Language Model，NNLM) 


Xu 等 人 在 2000 年 首次 尝试 使 用 神经 网 络 求解 二 元 语言 模型 。2001 年 ，Bengio 等 人 正式 提 
出 神经 网 络 语言 模型 。 该 模型 在 学 习 语言 模型 的 同时 也 得 到 了 词 向 量 ， 有 具体 如 图 4-3 所 示 。 


efw ia ef-a) elwi- 


原始 文本 i-(n—1) C0(i -2) 0011) 


图 4-3 神经 网 络 语言 模型 (NNLM) 
其 中 ， 输 入 层 的 词 向 量 顺序 拼接 为 x = [e (wd-o-_i));…;e(wd-aj;e(wd-5)];， 隐藏 层 h 和 
输出 层 y 分 别 为 : h = tanh(bl+ Hx)，y = b? +Wx+ Uh; 将 y 转 成 对 应 的 概率 值 : 
exp (Yy (wi)) 


P(w:; | Wi—(n—1);:.; Wi-1) = 
Ri exp (y (wk)) 


而 对 于 整个 语 料 而 言 ,语言 模型 需要 做 以 下 最 大 化 运算 : 
> log Pl | -tm a inh i) 


wi_(n—1):iED 


(2) Log 双 线 性 语言 模型 (LBL) 
2007 年 ，Mnih 和 Hinton 在 神经 网 络 语言 模型 的 基础 上 提出 了 log 双 线 性 语言 模型 
(Log-Bilinear Language Model，LBL) ， 如 图 4-4 所 示 。 
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NLM 


y(@)=b’+e'(w) tanh(b'+H[e( arn) ;3 e( a);e (on))) 


= [E(on; wo-m-v:u-)) | 
LBL 
E(ws;wo-(n-n:0-))=b +e(w) bb + 
e(o) Hle( ohn-i0);; e( ti-a); e( eh-y)] 


图 4-4 Log 双 线 性 语言 模型 


(3) 循环 神经 网 络 语言 模型 (RNNLM) 
Mikolov 等 人 提出 的 循环 神经 网 络 语言 模型 (Recurrent Neural Network based Language Model， 
RNNLM) 直接 对 PO 进行 建 模 , RNNLM 可 以 利用 所 有 的 上 文 信息 预测 下 一 个 词 ， 其 模型 结构 如 


图 4-5 所 示 。 
人 | 
输出 层 y od 
隐藏 层 h(i) 
输入 层 
原始 文本 
图 4-5 循环 神经 网 络 语言 模型 (RNNLM) 
(4) C&W 模型 


与 前 面 的 三 个 基于 语言 模型 的 词 向 量 生成 方法 不 同 ，Collobert 和 Weston 在 2008 年 提 
出 的 C&W 模型 ( 见 图 4-6) ， 是 第 一 个 直接 以 生成 词 向 量 为 目标 的 模型 。 


输出 层 


原始 文本 “一 (n 一 12) Wi) * i+(n—1)/2) 


图 4-6 C&W 模型 
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就 C&W 模型 〈 见 图 4-6) 与 NNLM ( 见 图 4-3) 之 间 的 差异 而 言 ， 主 要 在 于 C&W 模 
型 将 目标 词 置 于 输入 层 ， 且 同时 输出 层 也 从 语言 模型 的 |V| 个 节点 变 为 一 个 节点 ， 该 节点 的 
数值 表示 对 这 组 n 元 短语 的 评分 。 评 分 也 仅 有 高 低 之 分 ， 而 不 存在 概率 的 特性 ， 所 以 ， 我 们 
无 需 进 行 复杂 的 归 一 化 操作 。C&W 模型 使 用 这 种 方式 把 NNLM 模型 在 最 后 一 层 的 |V| x |h| 
次 运算 降 为 bh| 次 运算 ， 这 样 就 极 大 地 降低 了 模型 的 时 间 复 杂 度 。 这 个 区 别 使 得 C&W 模型 
成 为 神经 网 络 词 向 量 模型 中 最 为 特殊 的 一 个 ， 其 它 模型 的 目标 词 均 在 输出 层 ， 只 有 C&W 模 
型 的 目标 词 在 输入 层 。 

(5) 著名 的 Word2vec 

Word2vec 包含 两 个 典型 模型 Skip-gram (SG) 和 Continuous Bag-of-Words (CBOW) ， 如 
图 4-7 所 示 。 


输入 层 x 
elm, eGo- 1)) Ce) e( wrt 


Ae) Air (n—1)/2) 


输出 层 了 Skip-gram 

人 和 AR x (一 -< A 各 
ee-in-1ya) ele 

原始 文本 C94- in- chi css- Ra 


图 4-7 Word2vec 工具 中 的 两 个 模型 


Word2vec 是 谷歌 在 2013 年 推出 的 一 个 NLP 工具 ， 是 从 大 量 文本 语 料 中 以 无 监督 的 方式 学 习 
语义 知识 的 一 种 模型 , 它 的 特点 是 将 所 有 的 词 向 量化 , 这 样 我 们 就 能 以 定量 的 方式 去 度量 词 与 词 之 
间 的 关系 ， 挖 掘 词 之 问 的 联系 ， 所 以 Word2Vec 被 大 量 用 于 自然 语言 处 理 (NLP) 中 。Word2Vec 
模型 分 为 两 个 部 分 ， 第 一 部 分 是 建立 模型 ， 第 二 部 分 是 通过 模型 获取 词 向 量 。Word2Vec 整个 建 模 
过 程 实际 上 与 自 编码 器 (Auto-Encoder) 的 思想 很 相似 ， 即 先 基于 训练 数据 构建 一 个 神经 网 络 ， 当 
这 个 模型 训练 好 以 后 ， 我 们 先 不 会 用 这 个 训练 好 的 模型 处 理 新 的 任务 ， 而 真正 需要 的 是 这 个 模型 通过 
训练 数据 所 学 得 的 参数 ， 其 实 这 与 部 分 传统 机 器 学 习 模 型 类 似 〈 比 如 ， 笔 者 博客 《机 器 学 习 实践 之 预 
测 数值 型 数据 一 一 回归 》 一 文中 提 到 的 通过 训练 算法 寻找 回归 系数 ) ， 例 如 隐藏 层 的 权重 值 和 矩阵， 后 
面 我 们 将 会 看 到 这 些 权重 值 在 Word2Vec 中 实际 上 就 是 我 们 试图 去 学 习 的 词 向 量 (Word Vector) 。 

对 于 整个 语料库 而 言 ，CBOW 优化 的 最 大 目标 为 : 


EN log P(wle) 


(waeD 


其 中 ，P(wl|c) 是 CBOW 模型 根据 上 下 文 的 表示 来 实现 对 目标 词 直 接 进 行 的 预测 ， 具 体 如 下 : 
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P(wle) = exp (e'(w)'z) 
Dm (cto) 
同样 ， 对 于 整个 语料库 而 言 ，Skip-gram 模型 通过 上 下 文 预测 目标 词 ， 优 化 的 最 大 化 目标 为 : 


> logP(lwhw;) 


(wc)ED wjec 
其 中 ，P(w|wj) 为 : 
exp (e(w)"e(wi)) 


Dev exp (eloJrelw)) 


Plwlw;) 


(6) Order 模型 

上 面 提 到 的 CBOW 模型 和 Skip-gram 模型 为 了 获得 更 高 的 性 能 ， 在 神经 网 络 语言 模型 或 者 
log 双 线 性 语言 模型 的 基础 上 去 掉 了 隐藏 层 和 词 序 信息 。 为 了 更 好 地 分 析 词 序 信息 对 词 向 量 性 能 的 
影响 ， 这 里 有 一 个 新 模型 ， 名 为 “Order”( 见 图 4-8) ， 意 为 保留 了 词 序 信息 。 该 模型 在 保留 词 序 
信息 的 同时 ， 去 除了 隐藏 层 。 


-= v- 
ny Ex 
输入 层 x ss i 

elwh -aa) e(o 0) je) ef(wiso -up 


原始 文本 -to Ch mr Cir tn- Di) 


1 
CBOW w= = > - elws) 


图 4-8 ”Order 模型 


伊 万 。 布 罗 德 罗 夫 (Ivan Vendrov) 、 瑞 安 基 洛斯 (Ryan Kiros) 、Sanja Fidler、 拉 奎 尔 。 乌 
塔 森 (Raquel Urtasun) 发 表 在 ICLR2016 上 的 论文 《ORDER -E MBEDDINGS OF IMAGES AND 
Z4NMGU4GE》， 提 出 了 一 种 新 的 基于 偏 序 关系 的 分 布 式 表示 向 量 构建 方法 ， 可 以 用 于 图 像 与 文本 
等 领域 ， 并 在 上 下 位 关系 预测 (Hypernym Prediction) 、 标 题 -图 像 检索 (Caption-ImageRetrieval) 
和 自然 语言 推理 (Textual Entailment / Natural Language Inference) 等 三 个 任务 上 进行 了 实验 ， 取 得 
了 不 错 的 效果 。 文 章 的 最 大 亮点 在 于 基于 偏 序 关系 的 向 量 (Order-Embedding) 的 构建 ， 如 果 有 时 
间 ， 建 议 读者 看 看 原文 。 

论文 提出 了 一 种 全 新 的 基于 偏 序 关系 的 向 量 学 习 方 法 ,将 维持 具有 层次 关系 的 向 量 之 间 的 偏 序 
关系 作为 学 习 的 目标 。 上 下 位 关系 预测 、 标 题 - 图 像 检 索 和 自然 语言 推理 等 任务 ， 本 质 上 都 是 学 习 
图 像 和 文字 上 偏 序 关系 的 实例 。 如 图 4-9 所 示 ， 图 像 标题 即 为 图 像 的 一 种 抽象 表达 ， 而 标题 本 身 的 
表达 也 抽象 形成 一 个 层次 结构 , 这 种 层次 结构 即 为 一 种 偏 序 关系 。 上 下 位 关系 预测 和 自然 语言 推理 
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等 任务 也 自然 能 够 转化 为 一 个 学 习 偏 序 关系 的 任务 。 
entity 


| ss 
skis ls do 


9 


woman person walking 


| ee walking 
1 


woman skiing woman walking her dog 


的 


图 4-9 视觉 语义 层次 结构 (部 分 》 
4.2 Word2vec 模型 (以 Skip-Gram 为 例 ) 


Mikolov 等 人 在 2013 年 的 文献 中 ,同时 提出 了 Skip-Gram 和 CBOW(Continuous Bagof-Words) 
模型 ， 设 计 两 个 模型 的 主要 目的 是 希望 用 更 高 效 的 算法 获取 词 向 量 。 因 此 ， 根 据 前 人 在 NNLM、 
RNNLM 和 C&W 模型 上 的 积累 ,他 们 简化 了 当时 己 有 模型 且 保留 了 核心 部 分 , 便 有 了 这 两 个 模型 。 
常见 的 CBOW 和 Skip-Gram 模型 结构 图 如 图 4-10 所 示 。 


INPUT PROJECTION OUTPUT INPUT PROJECTION OUTPUT 


图 4-10 ”模型 结构 图 左 侧 CBOW 模型 ， 右 侧 Skip-Gram 模型 
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Skip-Gram 算法 模型 是 一 种 利用 文字 的 上 下 文 来 学 习 词 嵌 入 的 算法 。 让 我 们 在 后 文 一 步 一 步 地 
去 理解 Skip-Gram 算法 。 因 为 原始 的 Skip-Gram 模型 没有 中 间 隐 藏 层 ,而 目前 使 用 的 优化 Skip-Gram 
模型 存在 中 间 隐 藏 层 ， 为 了 更 好 地 解读 Skip-Gram 模型 ， 所 以 这 里 先 讨论 优化 Skip-Gram 模型 ， 后 
面 会 对 原始 Skip-Gram 和 优化 Skip-Gram 做 一 个 简单 对 比分 析 。 


4.2.1 直观 认识 Word2vec 


上 面 提 到 的 词 向 量 (Word2vec) 是 词 的 数字 表示 ， 保 留 了 词 之 间 的 语义 关系 。 例 如 ， 单 词 cat 
的 向 量 与 单词 dog 的 向 量 就 非常 相似 ， 而 单词 pencil 的 向 量 却 与 词 cat 的 向 量 差 别 很 大 ， 甚 至 完全 
不 同 。 其 实 ， 这 种 词 向 量 间 的 相似 性 取决 于 对 应 的 频率 ， 所 以 这 里 讨论 一 下 两 个 词 ( 如 [cat,dog] 或 
者 [penciLcat]) 在 相同 上 下 文中 的 使 用 情况 。 考 虑 以 下 句子 : 


一 


pencil 


Ilike to pet my 


My does not like the postman 


很 显然 , 在 组 成 上 面 句子 的 过 程 中 , 无 论 是 cat 还 是 dog, 都 比 pencil 更 加 适合 填充 到 空白 处 。 
在 上 面 的 句子 中 ，pencil 无 论 从 拼写 还 是 语法 方面 都 没有 问题 ， 为 什么 它 就 是 不 对 呢 ?是 因为 这 里 
的 pencil 单词 会 使 得 上 下 文 语义 产生 错误 。 所 以 ，Word2vec 算法 模型 使 用 词 的 上 下 文 来 学 习 词 的 
数字 表示 ， 以 便 在 相同 上 下 文中 所 使 用 的 词 具有 相似 的 词 向 量 。 


4.2.2 定义 任务 


我 们 现在 解读 一 下 Word2vec 算法 的 机 制 情况 ， 后 面 会 继续 讲解 模型 细节 ， 以 便 我 们 知道 如 何 
实现 Word2vec 算法 。 为 了 以 无 监督 方式 学 习 词 向 量 (数据 没有 被 标记 ) ， 我 们 需要 定义 且 完成 一 
些 任 务 ， 具 体 任 务 有 : 

(1) 创建 格式 为 [输入 词 ,输出 词 ] 的 数据 元 组 ， 其 中 每 个 词 都 表示 为 一 个 One-Hot 向 量 ， 均 来 
自 原始 文本 。 

(2) 定义 出 一 个 模型 ， 将 One-Hot 向 量 作为 输入 和 输出 进行 训练 。 

(3) 定义 一 个 损失 函数 ， 用 于 预测 正确 的 词 〈《 这 些 词 来 自 于 输入 词 的 上 下 文 ) ， 以 便 优化 模型 。 

(4) 通过 相似 词 具有 相似 的 词 向 量 来 评估 模型 。 


这 个 流程 看 似 简单 ， 其 实在 学 习 词 向 量 的 表现 上 是 超 强 的 ， 下 面 对 相 关 细节 进行 解读 。 


4.2.3 ”从 原始 文本 创建 结构 化 数据 


这 部 分 对 于 原始 文本 的 操作 并 不 复杂 ， 只 是 将 其 置 于 某 个 结构 中 。 下 面 给 出 一 个 例子 , 这 里 有 
下 面 一 句 话 : 
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The cat pushed the glass off the table- 


由 上 面 这 旬 话 ， 我 们 创建 的 数据 结构 如 图 4-11 所 示 。 句 子 下 面 的 每 一 行 代 表 一 个 数据 点 。 蓝 
色 框 表示 One-Hot 输入 词 (中间 词 ， 也 叫 目标 词 ) ， 红 色 框 表示 One-Hot 输出 词 (上下文 窗口 中 除 
中 间 词 之 外 的 任何 词 均 称 为 上 下 文 词 ) 。 上 下 文 窗口 大 小 越 大 ， 模 型 的 性 能 就 越 好 。 随 着 数据 量 的 
增加 ， 窗 口 的 大 小 也 随 之 增 大 ， 进 一 步 导 致 计算 成 本 快速 上 升 。 注 意 一 点 ， 不 要 将 目标 词 与 神经 网 
络 的 目标 〈 正 确 输出 ) 混淆 ， 这 是 两 个 完全 不 同 的 东西 。 本 节 内 容 暂 以 Skip-Gram 模型 为 例 进行 解 
释 说 明 。 


Context Window 
<------------- > 


™| cat | pushed |the |glass| of the table 


cat | pushed 


cat | pushed 六 


| pushed | the 


the [oe] 


图 4-11 例句 数据 结构 示意 图 


这 里 ， 单 个 上 下 文 的 窗口 是 指 从 当前 输入 词 (Input Word， 即 目标 词 ) 的 一 侧 〈 左 边 或 右边 ) 选取 
词 的 数量 。 
如 果 我 们 设置 窗口 大 小 window_size=2, 那么 我 们 最 终 获 得 窗口 宽度 为 5, 窗口 内 容 就 是 “The'， 


人 


‘cat'’, ‘pushed', 'the','glass, 


网 上 有 专栏 文章 多 处 指出 ， 整 个 窗口 大 小 是 2*window size =4， 笔 者 为 此 查阅 多 篇 国外 


原文 资料 ， 最 终 认为 整个 窗口 宽度 或 大 小 应 该 为 span=2*window size+ft1， 有 疑惑 的 地 方 ， 
建议 读者 多 看 几 篇 国外 原文 ， 因 为 也 有 个 别 国外 文章 中 提 到 span = 2*window_size， 误 导 
了 读者 。 


4.2.4 定义 词 戏 入 层 和 神经 网 络 


1. 词 嵌入 层 ( Embedding Layer， 也 称 为 嵌入 层 ) : 存储 所 有 词 向 量 


词 嵌 入 层 存储 词汇 表 中 找到 的 所 有 词 的 词 向 量 。 你 可 以 想象 到 这 将 是 一 个 巨大 的 矩阵 
([vocabulary size X embedding size]， 即 [词汇 大 小 X 词 向 量 大 小 ]) 。 这 里 读者 可 以 自行 调整 词 向 
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量 大 小 (Embedding Size) 。 当 然 ， 词 向 量 大 小 越 大 ， 模 型 表现 越 佳 。 结 合 上 面 的 例句 ， 其 流程 图 
如 图 4-12 所 示 。 


cat 


dog 


walk ' 
1 Vocabulary 
1 size 


pencil 


Embedding size 


图 4-12 词 向 量 示例 图 

2. 神经 网 络 : 将 词 向 量 映射 到 输出 

在 训练 期 间 ， 神 经 网 络 利用 输入 词 去 尝试 预测 输出 词 。 然 后 ,我 们 会 惩罚 模型 的 错误 分 类 以 及 
奖励 模型 的 正确 分 类 。 这 里 对 模型 会 话 做 了 一 些 限 制 : 一 次 处 理 单个 输入 和 单个 输出 。 下 面 是 训练 
期 间 的 流程 : 

(1) 对 于 给 定 的 输入 词 〈 目 标 词 》， 从 词 嵌 入 层 中 找到 相应 的 词 向 量 。 

(2) 将 词 向 量 输入 神经 网 络 ， 然 后 尝试 预测 正确 的 输出 词 (上 下 文 词 ) 。 

(3) 通过 比较 预测 和 真实 的 上 下 文 词 ， 计 算 损失 。 

(4) 利用 损失 函数 和 随机 优化 器 来 优化 神经 网 络 和 词 嵌 入 层 。 


需要 注意 的 一 点 是 ， 在 计算 预测 时 ， 我 们 使 用 softmax 激活 函数 将 预测 标准 化 为 有 效 的 概率 分 布 。 


4.2.5 整合 


下 面 我 们 可 以 将 所 有 部 分 放 在 一 起 来 看 模型 的 全 貌 ， 如 图 4-13 所 示 。 

这 种 数据 的 局 部 排列 和 模型 布局 是 Word2vec 的 Skip-Gram 算法 ,也 是 我 们 本 节 要 关注 的 内 容 。 
另 一 种 算法 称 为 连续 词 袋 (CBOW) 模型 ， 后 面 也 会 单独 阐述 。 

至 此 ， 我 们 可 以 对 于 Skip-Gram 模型 的 概念 结构 和 实施 结构 做 个 小 的 总 结 。 图 4-14 所 示 为 概 
念 结构 图 ， 图 4-15 所 示 为 实施 结构 图 。 
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Context word 
| The 


A Optimize 
1! Computetheloss------------- 


Prediction vector 


Embedding layer 


Target word 


4-13 ”模型 全 貌 示例 


一 -一 一 
A as 


广 入 [word[t]] 


嵌入 层 (P》 (V#D) 


4-14 Skip-Gram 模型 概念 架构 图 
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输出 (b#V) 


谋 入 层 (P) (V#D》 
人 


图 4-15 ”Skip-Gram 模型 实施 架构 图 


V: 词汇 量 (语料库 中 的 唯一 词 数 ) 。 

了 P: 投影 或 词 谱 入 层 (The Projection or the Embedding Layer ) 。 
D: 词 向 量 空间 的 维 数 。 

b: 单个 batch 的 大 小 。 


4.2.6 定义 损失 函数 


到 目前 为 止 , 我 们 还 没有 深入 讨论 Word2Vec 的 一 个 非常 关键 的 话题 ， 那 就 是 损失 函数 。 一 般 
情况 下 ， 标 准 softmax 交叉 焙 损 失 函 数 是 分 类 任务 中 一 个 非常 好 的 损失 函数 。 然 而 ， 这 种 损失 函数 
对 Word2Vec 来 说 有 时 并 不 是 很 实用 。 在 现实 工作 任务 中 ， 可 能 涉及 数 十 亿 个 词 ， 词 汇 量 可 以 轻松 
达到 100000 个 或 者 更 多 , 这 就 使 得 softmax 函数 的 归 一 化 变 得 非常 沉重 , 这 是 因为 softmax 的 完全 
计算 需要 计算 所 有 输出 节点 的 交叉 焙 损失 。 所 以 , 在 保证 模型 性 能 的 前 提 下 , 我 们 需要 转向 使 用 近 
似 且 有 效 的 损失 函数 。 这 样 一 来 ， 对 于 一 个 Word2vec 模型 设计 而 言 ， 最 大 的 挑战 就 变 成 如 何 降低 
softmax 层 的 计算 复杂 度 ， 这 也 是 机 器 翻译 (MT) (Jean 等 ) 和 语言 建 模 (Jozefowicz 等 ) 共同 关 
注 之 处 。 语 言 建 模 中 近似 softmax 的 方法 有 多 种 ， 例 如 : 


多 层次 softmax。 

微分 softmax。 

CNN-softmax. 

基于 采样 ( Sampling ) 的 方法 。 
友 重 要 性 采样 

友 具 有 适应 的 重要 性 采样 
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妈 目 标 采 样 
太 嗓 声 对 比 估计 
六 负 采样 
友 自 标准 化 
女 低频 的 标准 化 
友 其 他 方法 


下 面 只 讨论 一 下 比较 流行 的 近似 选择 : 负 采 样 和 多 层次 softmax 。 
1. softmax 层 负 采样 ( Negative Sampling ) 


对 于 softmax 损失 函数 的 蔡 代 选择 ， 下 面 我 们 将 采用 更 智能 的 蔡 代 方案 ， 称 为 sampled softmax 
损失 。 注 意 ， 与 标准 softmax 交叉 粒 损 失 相 比 ， 这 里 有 了 很 多 变化 。 首 先 ， 需 要 计算 的 是 给 定 目标 
词 所 在 真实 上 下 文 词 的 ID 与 对 应 于 真实 上 下 文 词 ID 的 预测 值 之 间 的 交叉 焙 损 失 。 其 次 ， 我 们 根 
据 一些 噪 声 分 布 添加 了 采样 的 民 个 负 样 本 的 交叉 焙 损 失 。 这 就 是 我 们 说 的 对 softmax 层 进行 负 采 样 。 
实际 数据 为 (输入 - 输出) ， 噪 声 为 〈(K-many 虚拟 噪声 输入 - 输出 ) 。 借 助 于 噪声 ， 是 指使 用 
不 属于 目标 词 所 在 上 下 文 的 词 创建 的 与 实际 词 对 (输入 - 输出 ) 不 相符 的 ， 即 使 用 〈(K-many 虚 
拟 噪声 输入 - 输出 ) 词 对 。 我 们 还 将 softmax 激活 函数 替换 为 sigmoid 激 活 函数 (也 称 为 逻辑 函数 )。 
这 允许 我 们 在 保持 [0.1] 范 围 内 输出 的 同时 ， 也 可 以 去 除 损失 函数 对 整个 词汇 表 的 依赖 。 在 较 高 的 层 
面 上 ， 我 们 将 损失 定义 如 下 : 


Loss = SigmoidCrossEntropy(Prediction, CorrectWord) 
K 


+ > ECwoise1p)SigmoidCrossEntropy(Prediction, Noise1D) 


SigmoidCrossEntropy 是 我 们 可 以 在 单个 输出 节点 上 定义 的 损失 ， 与 其 余 节点 无 关 。 这 使 它 成 
为 我 们 分 析 问 题 的 理想 选择 , 因为 我 们 的 词汇 量 会 变 得 非常 大 。 我 们 不 会 深入 研究 这 种 损失 的 细节 ， 
也 不 需要 了 解 这 是 如 何 实现 的 ， 因 为 它们 可 以 作为 TensorFlow 中 的 内 置 函数 使 用 ， 但 理解 损失 中 
涉及 的 参数 〈 例 如 天 ) 很 重要 。 sampled softmax 损失 通过 考虑 两 种 类 型 的 实体 来 计算 损失 : 


@ ”由 预测 向 量 (上 下 文 窗口 中 的 词 ) 中 的 真实 上 下 文 词 ID 给 出 的 索引 。 
@ 词 有 四 表示 的 K 个 索引 ， 被 认为 是 噪声 (上下文 窗 口 之 外 的 词 ) 。 


负 采 样 是 噪声 对 比 估 计 (Noise-Contrastive Estimation，NCE ) 方法 的 近似 ， 根 据 NCE 可 知 ， 
一 个 好 的 模型 应 该 通过 逻辑 回归 来 区 分 真实 数据 和 噪声 , 实际 上 负 采 样 既 很 好 地 保留 了 模型 的 性 能 
又 很 好 地 做 到 有 效 损失 的 近似 。 

结合 上 面 的 例子 来 说 明 这 一 点 ， 如 图 4-16 所 示 。 
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The cat pushed ;the glass off the table 


Positive el cat 
Samples 
cat "pushed 
Negative 
Samples cat glass 


4-16 softmax 层 负 采样 示例 
2. 多 层次 softmax ( Hierarchical softmax ) 


多 层次 softmax (H-softmax) 是 Morin 和 Bengio 受到 二 叉 树 启发 而 得 出 的 方法 。 从 根本 上 来 
说 ，H-softmax 是 用 词语 作为 叶子 的 多 层 结构 来 蔡 代 原 softmax 的 一 层 ， 如 图 4-17 所 示 。 


p=1 


节点 1 叶子 “ws 


mA 一 由 已 (go=0) 已 (cm) 一 上 已 (qo 一 1) 


于 于 叶子 w2 


P(ea)=PP(q=0) Pp(m)=PP(q=1) 
图 4-17 多 层次 softmax 图 示 


这 样 一 来 , 对 于 单个 词 出 现 概率 的 计算 就 可 以 被 分 解 为 一 连 串 的 概率 计算 , 我 们 也 就 无 须 再 对 
所 有 词 进行 高 成 本 的 标准 化 计算 处 理 。 用 H-softmax 来 替代 单一 的 softmax 层 可 以 大 大 提升 预测 
词 的 速度 ， 有 研究 表明 ， 至 少 带 来 50 倍 的 提升 ， 因 此 特别 适用 于 要 求 低 延 迟 的 工作 任务 ， 比 如 谷 
歌 的 新 通信 软件 Allo 的 实时 沟通 功能 便 是 如 此 。 

我 们 如 果 把 常规 的 softmax 层 想 象 成 只 有 一 层 的 树 , 每 个 V 中 的 词 均 是 一 个 叶子 节点 , 那么 在 
计算 一 个 词 softmax 层 的 概率 时 ， 就 需要 标准 化 所 有 IVI 个 叶子 的 概率 ， 显 然 计算 成 本 非常 高 。 如 果 
把 softmax 层 当 成 每 个 词 都 是 叶子 的 一 棵 二 又 树 ， 则 只 需要 从 叶子 节点 开始 沿 着 树 的 路 径 行走 ， 就 
可 以 抵达 指定 的 词 ， 而 无 须 考虑 其 他 词 ， 显 然 这 种 方法 更 佳 。 

多 层次 softmax 比 负 采 样 略 微 复杂 ， 但 与 负 采 样 的 目标 相同 。 与 负 采 样 的 不 同 之 处 是 多 层次 
softmax 仅 使 用 实际 数据 而 不 需要 噪声 。 我 们 通过 一 个 例子 来 做 进一步 解读 。 例 如 , 有 下 面 一 句 话 : 


I like NLP. Deep learning is amazing. 


上 面 这 个 句子 的 词汇 如 下 : 
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I, like, NLP, Deep, learning, is, amazing 


使 用 这 个 词汇 表 , 可 以 构建 一 棵 二 叉 树 ,其 中 词汇 表 中 的 所 有 词 都 以 叶子 节点 的 形式 出 现 。 我 
们 还 将 添加 一 个 特殊 的 标记 PAD， 以 确保 所 有 树叶 都 有 两 个 成 员 ， 如 图 4-18 所 示 。 
每 个 softmax 节 点 表示 为 给 定单 词 选择 左 / 右 分 支 的 概率 。 例 如 P(right at 2|INLP)=1-P(left at 2INLP) 


depth=1log2(V) 


TI like NLP deep learning is amazing PAD 


V 
图 4-18 所 有 词 以 叶子 节点 出 现 
接着 ， 最 后 一 个 隐藏 层 将 完全 连接 到 层次 结构 中 的 所 有 节点 。 这 里 与 经 典 的 softmax 层 相 比 ， 
该 模型 具有 相似 的 总 权重 值 ， 但 是 ， 对 于 给 定 的 计算 ， 它 仅 使 用 其 中 一 部 分 。 
如 果 我 们 要 计算 P (NLP | like) 的 概率 ， 只 需要 一 个 权重 值 子 集 来 计算 概率 即 可 ， 其 中 like 
是 输入 词 ， 如 图 4-19 所 示 。 


霸 入 层 输 入 (Z; ) 


¥ like NLP deep learning is amazing PAD 
图 4-19 利用 权重 值 子 集 来 计算 概率 
具体 来 说 ， 计 算 概率 如 下 : 
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(NLP | like ) = P ( left at 1| like ) XP ( right at 2 | like ) Xp ( left 
at 5 | like ) 


由 于 知道 了 如 何 计算 PO， 我 们 便 可 以 使 用 原始 损失 函数 。 注 意 ， 该 方法 仅 使 用 连接 到 路 径 中 
节点 的 权重 值 进 行 计算 ， 从 而 使 得 计算 效率 很 高 。 

尽管 多 层次 softmax 是 有 效 的 ,但 是 一 个 重要 的 问题 仍然 值得 注意 , 那 就 是 如 何 确定 树 的 分 解 。 
更 准确 地 说 ， 哪 个 词 会 跟随 哪个 分 支 。 下 面 给 出 两 个 解决 方案 。 

(1) 随机 初始 化 层次 结构 : 事实 上 ， 此 方法 会 使 模型 的 一 些 性 能 下 降 ， 因 为 无 法 保证 随机 分 
配 在 词 之 间 的 分 支 是 最 佳 的 。 

(2) 使 用 WordNet 确定 层次 结构 : WordNet 可 用 于 确定 树 中 词 的 合适 顺序 。 该 方法 明显 表现 
出 比 随机 初始 化 更 好 的 性 能 。 


4.2.7 利用 TensorFlow 实现 Skip-Gram 模型 


接 下 来 我 们 将 使 用 TensorFlow 来 实现 Skip-Gram 算法 。 在 这 里 ， 我 们 将 仅仅 讨论 涉及 定义 
TensorFlow 的 操作 以 便 进行 学 习 词 向 量 的 部 分 。 完 整 代码 可 在 ch4 文件 夹 下 的 
4_skip-gram_CBOW(improved).ipynb 中 找到 。 

这 里 下 载 的 数据 集 包含 多 个 维基 百科 文章 ， 总 计 大 约 61MB 。 数 据 集 来 源 见 链接 
http://www.evanjones.ca/software/wikipedia2text.html。 

首先 定义 模型 的 超 参 数 。 你 可 以 自由 更 改 这 些 超 参数 的 值 以 查看 它们 如 何 影响 最 终 的 性 能 ( 例 
如 ，batch_size = 16 或 batch_size =256) 。 具 体 如 下 : 


batch size = 128 

embedding_size = 128 # 词 向 量 的 维 数 

window_size = 4 # 左 右 两 边 各 考虑 多 少 个 词 

valid_size = 16 # 用 于 评估 相似 性 的 随机 词 集 

# 仅 在 分 布 的 头 部 选择 开发 样本 

valid examples = np.array (random.sample (range (valid window), valid size)) 

valid examples = np.append (valid examples,random.sample (range (1000, 
1000+valid window), valid size),axis=0) 


num_sampled = 32 # 要 抽样 的 负 样 例 数量 
接 下 来 ， 为 训练 输入 数据 集 、 标 签 和 有 效 输 入 定义 TensorFlow 占 位 符 : 


train dataset = tf.placeholder (tf.int32, shape=[batch size]) 
train labels = tf.placeholder (tf.int32, shape=[batch size, 1]) 
valid dataset = tf.constant (valid examples, dtype=tf.int32) 


然后 ， 为 词 嵌 入 层 和 softmax 层 的 权重 值 及 偏差 定义 TensorFlow 变量 : 


embeddings =tf.Variable (tf.random uniform([vocabulary _ size embedding size], 


二 Or L207)) 
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softmax weights = tf.Variable(tf.-truncated normal ([vocabulary sizev 
embedding size], stddev=0.5 / math.sqrt (embedding size))) 


softmax biases = tf.Variable (tf.random uniform([vocabulary size],0.0,0.01)) 


接 下 来 ， 我 们 将 定义 一 个 词 向 量 查 找 操作 ， 该 操作 收集 指定 训练 数据 集 对 应 的 词 向 量 : 


embed = tf.nn.embedding lookup (embeddings, train dataset) 


之 后 ， 我 们 将 使 用 负 采 样 来 定义 softmax 损失 : 


loss = tf.reduce _ mean (tf.nn.sampled softmax 1oss (weights=softmax _ weightsv 
biases=softmax biases,inputs=embed, labels=train labels, 


num sampled=num sampled, num classes=vocabulary size)) 


在 这 里 ， 我 们 定义 一 个 优化 器 来 优化 (最 小 化 前 面 定 义 的 损失 函数 。 我 们 也 可 以 尝试 使 用 
https:// tensorflow.google.cn /api_guides/python/train 中 列 出 的 其 他 优化 器 进行 试验 : 


optimizer = tf.train.AdagradOoptimizer (1.0) .minimize (loss) 
计算 验证 输入 词 示例 和 所 有 词 向 量 之 间 的 相似 性 。 使 用 余弦 距离 


norm = tf.sqrt(tf.reduce_sum(tf.square (embeddings), 1, keepdims=True)) 
normalized embeddings = embeddings / norm 
valid embeddings = tf.nn.embedding lookup (normalized embeddings, 

valid dataset) 


similarity = tf.matmul (valid embeddings,tf.transpose (normalized embeddings)) 


在 定义 了 所 有 TensorFlow 变量 和 操作 后 ， 现 在 可 以 继续 执行 一 些 操作 ， 这 里 会 简要 给 出 这 些 
操作 的 基本 过 程 ， 具 体 的 完整 过 程 请 参见 对 应 的 代码 文件 。 

(1) 使 用 给 global_variables_initializer0 初 始 化 TensorFlow 变量 .run(。 

(2) 对 于 每 个 步骤 〈 预 定义 的 总 步骤 数 ) ， 请 执行 以 下 操作 : 


使 用 数据 生成 器 生成 一 批 数据 (batch_data - inputs，batch_labels -outputs) 。 
创建 一 个 名 为 feed_dict 的 字典 ， 将 训练 输入 /输出 占 位 符 映射 到 数据 生成 器 生成 的 数据 : 


feed dict = {train dataset: atch data, train labels: batch labels} 


执行 优化 步骤 并 获取 损失 值 ， 如 下 所 示 : 


_，1 = session.run ([optimizer, loss], feed dict = feed dict) 


最 终 ，Skip-Gram 模型 借助 t-SNE 技术 对 于 相关 数据 进行 可 视 化 后 的 效果 如 图 4-20 所 示 。 


验 。 
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图 4-20 Skip-Gram 模型 可 视 化 效果 图 示 
将 图 4-20 中 的 部 分 结果 放大 ， 如 图 4-21 所 示 。 
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图 4-21 Skip-Gram 模型 可 视 化 部 分 放大 效果 图 示 


从 放大 的 结果 来 看 ， 这 样 的 分 类 结果 还 是 符合 预期 的 ， 其 余部 分 的 分 类 结果 ,读者 可 以 自行 查 
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4.3 原始 Skip-Gram 模型 和 改进 Skip-Gram 模型 
对 比分 析 


到 目前 为 止 ， 讨 论 的 Skip-Gram 算法 实际 上 是 对 Mikolov 等 人 在 2013 年 出 版 的 原始 论文 中 提 
出 的 原始 Skip-Gram 算法 的 改进 模型 。 在 本 节 中 ， 我 们 先 看 一 下 原始 的 Skip-Gram 算法 。 

原始 Skip-Gram 算法 在 进行 表示 学 习 时 , 没有 使 用 中 间 隐 藏 层 , 所 以 在 代码 实现 过 程 中 不 会 设 
置 softmax_weights 和 softmax_biases 等 神经 网 络 参数 ， 因 为 它 只 有 输入 层 和 输出 层 ， 如 图 4-22 所 
示 ， 并 定义 了 一 个 从 词 向 量 本 身 派生 的 损失 函数 。 


优化 嵌入 


输出 说 入 


图 4-22 不 含 隐藏 层 的 原始 Skip-Gram 算法 
对 于 原始 Skip-Gram 算法 而 言 ， 其 负 采 样 损失 定义 如 下 : 


(N-m) (it+m) 


人 Soleo) 


(i=m+1) OG#iAj=i-—m) 
+ kE(Gw0)(ma0w)) [90 (~v'(wn) vow) 


这 里 ,是 输入 词 嵌入 层 ,v 是 输出 词 嵌入 层 ,zw 对 应 于 输入 词 嵌 入 层 中 词 w 的 词 向 量 ,而 ww 
对 应 于 输出 词 嵌 入 层 中 词 wi 的 词 向 量 。B,(w) 是 噪声 分 布 ， 我 们 从 中 对 噪声 样本 进行 采样 。 最 后 ， 
下 表示 从 世 负 样 例 获得 的 损失 期 望 〈 平 均值 ) 。 正 如 我 们 看 到 的 ， 除 了 词 向 量 本 身 之 外 ， 此 等 式 中 
没有 权重 值 和 偏差。 
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4.3.1 原始 的 Skip-Gram 算法 的 实现 


原始 的 Skip-Gram 算法 在 计算 损失 函数 时 ， 需 要 使 用 TensorFlow 函数 手工 完成 ， 因 为 其 中 缺 
少 内 置 函 数 来 计算 损失 。 完 整 代码 见 ch4 文件 夹 下 4_comparison ipynb 文件 。 
首先 ， 为 输入 数据 集 和 输出 数据 集 各 定义 一 个 占 位 符 : 


train dataset = tf.placeholder (tf.int32, shape=[batch size]) 
train labels = tf.placeholder (tf.int64, shape=[batch size, 1]) 


通过 定义 输入 和 输出 占 位 符 ， 我 们 可 以 调用 TensorFlow 内 置 函 数 candidate_sampler 进行 负 采 
样 ， 代 码 如 下 所 示 : 


negative samples, , _ = tf.nn.log uniform candidate sampler!( 
train labels, num true=l1, 
num_ sampled=num sampled, 
unique=True, 


range max=vocabulary size) 


在 这 里 ， 我 们 统一 对 负 样 例 进行 抽样 。 接 着 ， 我 们 有 num_true 的 数量 ， 它 表示 给 定数 据点 的 
真实 类 的 数量 。 接 下 来 是 我 们 想 要 一 批 数 据 的 负 样 本 数 (num sampled) ， 而 unique 参数 来 定义 
负 样本 是 否 应 该 是 唯一 的 。 最 后 ，range_max 定义 一 个 词 具 有 的 最 大 ID, 使 得 采样 时 避免 采 到 无 效 
词 ID。 

模型 除去 softmax 的 权重 值 和 偏差 之 后 ， 我 们 引入 两 个 词 嵌入 层 ， 一 个 用 于 输入 数据 ， 另 一 个 
用 于 输出 数据 。《〈 这 里 需要 两 个 词 嵌入 层 ， 因 为 只 有 一 个 词 嵌入 层 ， 损 失 函 数 将 不 起 作用 。) 

接 下 来 , 将 编写 代码 中 最 重要 的 部 分 一 一 定义 损失 函数 。 这 段 代码 实 现 了 我 们 前 面 讨论 过 的 损 
失 函 数 。 但 是 , 我 们 不 会 立即 计算 文档 中 所 有 词 的 损失 ， 因为 如 果 文 档 太 大 的 话 可 能 会 引起 内 存 洲 
出 。 因 此 ， 我 们 将 会 计算 单个 时 间 步 长 内 的 小 批量 数据 的 损失 。 完 整 代码 可 在 ch4 文件 夹 中 的 
4_word2vec_improvements.ipynb 文件 中 找到 : 

# 计算 正 样本 的 损失 

1oss = tf.reduce _ mean( 

tf.log( 
tf.nn.sigmoid( 
tf.reduce sum( 
tf. diag([1.0 for in range (batch size)])* 
tf.matmul 156E SEE tf.transpose (i embed )， 


axis=0) 


) 
) 
计算 负 样 本 的 损失 
loss += tf.reduce _ mean( 


tf.reduce sum( 
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tf.log(tf.nn.sigmoid(-tf.matmul (negative embed,tf.transpose(in embed)))), 
axis=0 


) 


TensorFlow 通过 定义 较 小 的 权重 值 和 偏差 子 集 来 实施 sampled_softmax loss， 这 些 权重 值 


和 偏差 仅 需 要 处 理 当 前 批量 数据 即 可 。 此 后 ,TensorFlow 计算 类 似 于 标准 softmax 交叉 粒 
计算 的 损失 ,但 是 由 于 没有 softmax 权重 值 和 偏差 ,因此 我 们 无 法 直接 转换 为 该 方法 来 计 
算 原始 的 Skip-Gram 损失 。 


4.3.2 将 原始 Skip-Gram 与 改进 后 的 Skip-Gram 进行 比较 


通过 代码 的 运行 , 我 们 针对 原始 Skip-Gram 与 改进 后 的 Skip-Gram 算法 在 计算 损失 效果 上 进行 
了 对 比 ， 详 见 图 4-23。 
原始 与 改进 Skip-Gram 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 


一 -- Skip-Gram (改进 的 ) 
一 一 Skip-Gram (原始 的 ) 


225 
200 
.5 


15.0 


炉 
踢 zs 


迁 代 次 数 1terations) 
图 4-23 原始 Skip-Gram 与 改进 Skip-Gram 的 损失 变化 
我 们 可 以 清楚 地 看 到 ， 与 没有 隐藏 层 相 比 ， 拥 有 隐藏 层 的 Skip-Gram 算法 会 带 来 更 好 的 性 能 。 
这 也 表明 拥有 更 深层 神经 网 络 结构 的 Skip-Gram 模型 往往 表现 更 好 ， 当 然 对 于 Word2vec 模型 而 言 
也 是 同样 的 道理 。 


4.4 CBOW 模型 


4.4.1 CBOW 模型 简 述 


这 里 再 简要 提 一 下 Word2vec 模型 结构 Word2vec 是 使 用 单个 隐藏 层 且 完 全 连接 的 神经 网 络 ， 
如 图 4-24 所 示 。 其 中 ， 隐 藏 层 中 的 神经 元 都 是 线性 神经 元 ， 输 入 层 设置 了 与 用 于 训练 的 词汇 中 词 
一 样 多 的 神经 元 ， 隐 藏 层 大 小 与 生成 词 向 量 的 维度 一 致 ， 且 输出 层 的 大 小 与 输入 层 相同 。 因 此 ， 假 
设 用 于 学 习 词 向 量 的 词汇 表 由 天 个 词组 成 并 且 词 向 量 的 维度 为 W， 则 隐藏 层 连接 的 输入 大 小 可 以 
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用 VXNN 的 矩阵 WI 表示， 每 行 表示 一 个 词 : 同 理 ， 可 以 用 和 NXTV 的 矩阵 WO 来 描述 从 隐藏 层 到 输 
出 层 的 连接 。 在 这 种 情况 下 , WO 甜 阵 的 每 列表 示 来 自给 定 词 汇 表 的 词 。 这 里 使 用 One-hot 编码 ( 独 
热 编码 ) 对 于 所 有 的 输入 进行 编码 。 


图 4-24 Word2vec 概念 图 
在 Skip-Gram 模型 中 ， 我 们 预测 了 目标 词 中 的 上 下 文 词 ， 但 是 ， 在 CBOW 模型 中 ， 我 们 将 从 
上 下 文 词 预测 目标 词 。 让 我 们 通过 下 面 的 句子 来 比较 Skip-Gram 和 CBOW: 


The dog barked at the mailman. 


对 于 Skip-Gram, 数据 元 组 (输入 词 ,输出 词 ), 可 以 表示 为 (dog, the)、(dog, barked)、(barked, dog) 等 。 
对 于 CBOW， 数 据 元 组 可 以 表示 为 : ([the, barked], dog)、([dog, at], barked) 等 。 


因此 ，CBOW 的 输入 具有 2XmXD 的 维度 ， 其 中 m 是 窗口 大 小 、D 是 词 向 量 的 维度 。 CBOW 
的 概念 模型 如 图 4-25 所 示 。 


图 4-25 ”CBOW 概念 结构 示意 图 
在 图 4-25 中 ， 隐 藏 层 的 输出 是 输入 层 处 对 应 上 下 文 词 向 量 的 平均 向 量 。 由 于 CBOW 模型 与 
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Skip-Gram 模型 非常 相似 , 因此 这 里 就 不 再 做 过 多 解读 .下面 ,我 们 将 通过 TensorFlow 来 实现 CBOW 
算法 。CBOW 的 完整 实现 可 以 在 ch4 文件 夹 的 4_ skip-gram_ CBOW(improved).ipynb 中 找到 。 


4.4.2 利用 TensorFlow 实现 CBOW 算法 


首先 ， 我 们 定义 相关 变量 ， 这 与 Skip-Gram 模型 的 情况 相同 : 
# 词 嵌入 层 


embeddings = tf.Variable(tf.random_ uniform([vocabulary size,embedding size]v 
-1.0, 1.0, dtype=tf.float32)) 

#softmax 的 权重 值 和 偏差 

softmax weights = tf.Variable(tf.truncated normal([vocabulary size, 
embedding sizel],stddev=1.0 / 


math.sqrt (embedding size),dtype=tf.float32)) 


softmax biases =tf.Variable (tf.zeros([vocabulary size],dtype=tf.float32)) 


在 这 里 ， 我 们 创建 了 一 组 又 加 的 词 向 量 ， 代 表 了 上 下 文 的 每 个 位 置 。 所 以 我 们 将 有 一 个 和 矩阵 : 
[batch_size，embeddings_size，2 * context_window_size]。 然 后 ,我 们 将 使 用 简化 运算 符 对 最 后 一 个 
轴 上 的 堆 县 词 向 量 进行 平均 ， 以 便 将 堆 琶 矩阵 减 小 为 [batch_size, embedding size]: 


stacked embedings = None 
for i in range (2*window size): 
embedding i = tf.nn.embedding lookup (embeddings,train dataset[:,i]) 
x_ size,y_size = embedding i.get shape().as list() 
if stacked embedings is None: 
stacked embedings = tf.reshape (embedding i, [x size,y size,1]) 
else: 
stacked embedings 
=tf.concat (axis=2,values=[stacked embedings,tf.reshape (embedding i, 
[x_size,y_size,1])]) 
assert stacked embedings.get shape().as list() [2]==2*window size 


mean embeddings = tf.reduce mean(stacked embedings,2,Kkeepdims=False) 


此 后 ， 像 Skip-Gram 模型 一 样 去 定义 损失 函数 和 优化 器 : 


loss = tf.reduce _ mean( 

tf.nn.sampled softmax loss (weights=softmax weights,biases=softmax biases,in 
puts=mean embeddings, 

labels=train labels,num sampled=num sampled,num classes=vocabulary size)) 


optimizer = tf.train.AdagradOoptimizer(1.0) .minimize (loss) 


运行 CBOW 模型 后 ， 最 终 得 到 的 结果 如 下 〈 部 分 展示 〉: 
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第 94000 步 长 上 的 平均 损失 : 2.087824 

第 96000 步 长 上 的 平均 损失 : 2.111227 

第 98000 步 长 上 的 平均 损失 : 2.094030 

第 100000 步 长 上 的 平均 损失 : 2.101904 

与 that 最 接近 的 单词 : which, how, what, heroes, jogaila, pro, acoustics, taxa, 

与 put 最 接近 的 单词 : however, although, though, which, patriots, calories, 
internationalist, thracian, 

与 or 最 接近 的 单词 : and,， 3,900,，solidifying, and/or, fictions, branching, than, 
afl-cio, 

与 this 最 接近 的 单词 : it, monna, 1786, mesons, another, 2.25, aptera, 
archaefructusy 

与 the 最 接近 的 单词 : macflecknoe, joaquim, spellings, separator, a, tcb, heikki, 
elision, 

与 's 最 接近 的 单词 : ”， sr Calabash, arguably, transformative, his, pikes, louis, 

与 in 最 接近 的 单词 : throughout, until, marie, since, axles, outside, during, 
three-tiered, 


这 样 看 来 ， 效 果 还 不 错 。 具 体 结果 ， 读 者 可 以 自行 运行 代码 去 查看 。 
4.5 Skip-Gram 和 CBOW 对 比 


在 介绍 完 Word2vec 的 两 个 模型 之 后 ， 下 面 我 们 分 析 一 下 这 两 个 模型 之 间 的 差异 。 


4.5.1 Skip-Gram 和 CBOW 模型 结构 分 析 


这 里 结合 4.4.1 中 的 例句 (如 图 4-26 所 示 ) 给 定 上 下 文 和 目标 词 ，Skip-Gram 模型 其 实 仅 在 单 
个 [输入 ,输出 ] 元 组 中 关注 目标 词 和 上 下 文中 的 单个 词 ， 而 CBOW 在 单个 样本 中 则 关注 目标 词 和 上 
下 文中 的 所 有 词 。 例 如 ， 短 语 dog barked at the mailman 中 ，Skip-Gram 在 单个 时 间 步 长 内 关注 到 像 
["dog","at"] 这 样 的 输入 输出 元 组 ， 而 CBOW 关注 到 的 则 是 [["dog","barked","the","mailman"],"at"] 这 
样 的 输入 输出 元 组 。 所以， 在 给 定 的 一 批 数据 中 ，CBOW 接收 的 信息 多 于 Skip-Gram。 接 下 来 我 们 
了 解 一 下 这 种 差异 如 何 影响 两 种 算法 的 性 能 。 

所 以 ， 从 两 个 模型 的 实现 视图 来 看 ， 我 们 知道 ，CBOW 模型 在 给 定 的 时 间 里 可 以 获取 更 多 的 
信息 〈 输 入 )》 ， 这 样 就 促使 CBOW 在 某 些 条 件 下 性 能 更 优 。 
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Yi(barked") 


谱 入 查找 


(b) CBOW 模型 


图 4-26 实现 视图 


4.5.2 ”代码 层面 对 比 两 模型 性 能 


在 训练 模型 的 任务 时 ， 我 们 通过 代码 绘制 了 Skip-Gram 和 CBOW 中 随 着 迭代 次 数 变化 而 产生 
的 损失 情况 ， 如 图 4-27 所 示 ， 完 整 代码 详 见 ch4 文件 夹 中 的 4_comparison.ipynb 文件 。 

显然 ， 我 们 可 以 发 现 ， 随 着 迭代 次 数 的 堆 琶 CBOW 模型 的 损失 比 Skip-Gram 模型 的 损失 下 
降 的 速度 快 很 多 。 但 是 ,就 模型 的 性 能 衡量 而 言 ， 只 关注 损失 本 身 是 不 够 的 ， 因 为 如 果 模 型 过 度 拟 
合 了 训练 数据 ,损失 照样 会 迅速 减少 ， 所 以 我 们 还 要 关注 模型 的 另外 一 个 性 能 指标 ， 即 词 向 量 的 质 
量 。 为 了 更 加 直观 地 比较 Skip-Gram 和 CBOW 模型 之 间 的 性 能 情况 ， 这 里 使 用 t-SNE 技术 进行 可 
视 化 对 比 ， 其 运行 结果 如 下 ， 读 者 可 以 自行 执行 代码 进行 查验 。 
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Skip-Gram 与 CBOW 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 
-Skip-Gram 


se mm 
迁 代 次 数 (Iterations) 
4-27 损失 下 降 : Skip-Gram vs CBOW 


我 们 讨论 过 ， 与 Skip-Gram 算法 相 比 ，CBOW 可 以 访问 给 定 [输入 ,输出 ] 元 组 的 指定 目标 词 所 
在 上 下 文 的 更 多 信息 。 可 以 看 到 ， 与 Skip-Gram 模型 相 比 ，CBOW 给 出 的 损失 会 快速 减少 。 尽 管 
如 此 ， 其 实 损失 本 身 并 不 足以 衡量 模型 绩效 ， 因 为 过 度 拟 合 了 训练 数据 ， 损 失 也 会 迅速 减少 。 虽然 
有 一 些 基准 测试 任务 用 于 评估 词 向 量 的 质量 (例如 ， 词 类比 任 务 )， 但 我 们 将 使 用 更 简单 的 检查 方 
法 。 为 了 直观 地 检查 学 习 的 词 向 量 ， 以 确保 Skip-Gram 和 CBOW 在 它们 之 间 显 示 出 显著 的 语义 差 
异 ， 这 里 使 用 t-Distributed 随机 邻居 嵌入 〈tSNE) 可 视 化 技术 进行 处 理 ， 详 见 图 4-28( 详 见 代码 
运行 效果 图 ) 。 在 图 4-28 中 ， 我 们 可 以 看 到 CBOW 对 于 词 的 聚集 效果 优 于 Skip-Gram， 其 中 词 稀 
琉 地 分 布 在 整个 空间 中 。 因 此 ， 我 们 可 以 说 CBOW 看 起 来 比 Skip-Gram 更 具有 优势 ， 然 而 ， 事 实 
上 这 仅 是 一 个 特例 ， 下 面 会 继续 分 析 。 


Skip-Gram 模 型 采样 t-SNE 技 术 得 到 的 效果 图 CBOW 模 型 采样 t-SNE 技 术 得 到 的 效果 图 


图 4-28 ”Skip-Gram 和 CBOW 获得 的 词 向 量 的 +SNE 可 视 化 效果 图 示 
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4.5.3 Skip-Gram 和 CBOW 模型 就 优 


其 实 , 在 性 能 表现 方面 , Skip-Gram 和 CBOW 之 间 没 有 明确 的 赢家 . 就 像 Mikolov 等 人 在 2013 
年 发 表 的 论文 《Distributed Representations of Words and Phrases and their Compositionality) (Mikolov 
等 ，2013) 中 所 表达 的 那样 ，Skip-Gram 在 语义 任务 中 表现 更 好 ， 而 CBOW 在 句法 任务 中 表现 更 
好 。 但 是 ， 在 大 多 数 任务 中 ，Skip-Gram 似乎 比 CBOW 表现 更 好 ， 这 与 我 们 刚才 的 发 现 显然 有 些 
出 入 。 

各 种 经 验证 据 表 明 ， 与 CBOW 相 比 ，Skip-Gram 适用 于 大 型 数据 集 ， 并 且 在 论文 《Distribured 
Representations of Words and Phrases and their Compositionality》(Mikolov 等 , 2013 ) 和 论文 《GloVe: 
Global Vectors for Word Representation》 (Pennington 等 ，2014) 中 得 到 了 支持 ， 这 里 通常 使 用 数 
十 亿 个 词 的 语料库 。 由 于 上 面 任务 涉及 的 数据 只 有 数 十 万 个 词 ， 数 据 样本 相对 较 小 ， 所 以 这 时 
CBOW 表现 更 好 。 

为 了 更 好 地 证 实 上 面 的 论述 ， 下 面 我 们 做 进一步 分 析 ， 考 虑 以 下 两 句 话 : 


® Itis anice day 
@ Itisabrilliant day 


对 于 CBOW， 输 入 输出 元 组 如 下 : 


[[It, is, a, day], nice] 


[[It, is, a, day],brilliant] 
而 Skip-Gram 的 输入 输出 元 组 如 下 所 示 : 


[It, nice], [is, nice] [a,nice], [day, nice] 
[It, brilliant], [is, brilliant], [a, brilliant], [day, brilliant] 


我 们 希望 模型 能 够 理解 nice 和 brilliant 是 两 个 有 上 略微 差异 的 单词 brilliant 意味 着 更 好 ) 。 这 
些 在 含义 上 有 细微 差别 的 词 称 为 nuances (细微 之 处 ) 。 我 们 可 以 看 到 ， 对 于 CBOW 来 说 ,很 有 可 
能 它 会 关注 到 nice 和 brilliant 是 同一 个 对 象 , 因为 它们 的 语义 是 通过 周围 的 单词 (It is、a 和 day) 
得 到 的 平均 语义 ， 所 以 CBOW 模型 给 出 的 两 个 单词 是 一 样 的 也 就 是 很 自然 的 事情 了 。 对 于 
Skip-Gram， 单 词 nice 和 brilliant 是 与 It、is 和 day 分开 的 ， 这样 Skip-Gram 更 多 地 关注 起 单词 ( 例 
如 brilliant 和 nice) 之 间 的 细微 差异 。 

这 里 要 注意 ， 现 实 中 模型 可 能 有 数 百 万 个 参数 ， 要 训练 这 些 模 型 ， 需 要 大 量 数据 。CBOW 以 
某 种 方式 只 是 平均 给 定语 境 中 所 有 单词 的 语义 〈 例 如 ，Itis a day 的 平均 语义 ) ; Skip-Gram 会 学 习 
更 细致 的 单词 表示 ， 所 以 Skip-Gram 将 需要 更 多 数据 ， 一 旦 提供 了 足够 多 的 数据 ，Skip-Gram 模型 
就 很 可 能 会 优 于 CBOW 模型 。 
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4.6 词 嵌 入 算法 的 扩展 


Mikolov 等 人 在 2013 年 发 表 的 论文 中 讨论 了 几 种 可 以 进一步 提高 词 嵌入 学 习 算法 性 能 的 扩展 ， 
虽然 它们 最 初 被 引入 Skip-Gram, 但 它们 也 可 以 扩展 到 CBOW 此 外 , 正如 我 们 已 经 看 到 的 , CBOW 
在 上 面 的 示例 中 存在 优 于 Skip-Gram 算法 的 地 方 ， 本 节 将 继续 使 用 CBOW 来 解读 词 嵌入 (Word 
Embedding) 算法 的 扩展 内 容 。 


4.6.1 使 用 Unigram 分 布 进行 负 采 样 


1. 相关 理论 概要 

负 采 样 的 思想 最 初 来 源 于 一 种 叫 作 Noise-Contrastive Estimation (NCE， 噪 音 对 比 估计 ) 的 算 
法 ， 原 本 是 为 了 解决 那些 无 法 归 一 化 的 概率 模型 的 参数 预 估 问 题 。 与 改造 模型 输出 概率 的 
Hierarchical Softmax 算法 不 同 ，NCE 算法 改造 的 是 模型 的 似 然 函数 。 

由 上 面 的 内 容 ,我 们 知道 ， 当 通过 从 某 些 分 布 采样 而 不 是 从 均匀 分 布 进行 采样 时 ， 负 采样 的 性 
能 会 更 好 ，Unigram 分 布 就 是 这 样 的 分 布 。 词 wi 的 一 元 概率 由 以 下 等 式 给 出 : 

count(w:i) 

ZUecorpus) count (w) 
这 里 ，count(wi) 是 词 wi 在 文档 中 出 现 的 次 数 。 
让 我 们 用 一 个 例子 来 更 好 地 理解 Unigram 分 布 。 考 虑 以 下 句子 : 


U(wi) = 


Bob is a football fan. He is on the school football team. 
在 这 里 ， 单 词 “football” 的 Unigram 概率 如 下 : 
U (football )=2 /26= 1/13 

这 样 我 们 可 以 看 出 ， 常 用 词 的 Unigram 概率 会 更 高 ， 但 是 ， 在 现实 工作 任务 中 ， 这 些 常 用 词 
往往 是 无 效 信息 的 词 ， 例 如 a 和 is 等 。 这 样 来 看 ， 在 成 本 优化 期 间 ， 这 种 高 频率 的 词 将 被 更 多 地 
负 采 样 ， 导 致 伟 有 更 多 信息 性 的 词 减少 了 被 负 采 样 的 机 会 。 因 此 ， 在 优化 期 间 ， 需 要 使 用 Unigram 
分 布 进行 负 采 样 在 常用 词 和 罕见 词 之 间 做 好 平衡 ， 从 而 获得 更 好 的 性 能 。 下 面 ， 我 们 来 实现 基于 
Unigram 的 负 采 样 。 


2. 实现 基于 Unigram 的 负 采 样 
在 这 里 ， 我 们 将 看 到 如 何 使 用 TensorFlow 实现 基于 Unigram 的 负 采 样 : 


unigrams = [0 for _ in range(vocabulary size)] 
for word,w count in count: 


Ww idx = dictionary[word] 
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unigrams[w idx] = w count*1.0/token count 


word count dictionary[w idx] = w count 


这 里 ，count 是 一 个 元 组 列表 ， 其 中 每 个 元 组 由 (word ID, frequency) 组 成 。 该 算法 计算 每 个 
词 的 Unigram 概率 ， 并 将 它们 作为 按 词 索引 排序 的 列表 返回 。 完 整 代 码 详 见 ch4 文件 夹 中 
4_comparison.ipynb 文件 。 

接 下 来 ， 我 们 计算 一 个 嵌入 查找 运算 ， 就 像 我 们 通常 为 CBOW 做 的 那样 : 


train dataset = tf.placeholder (tf.int32, shape=[batch size,window size*2]) 

train labels = tf.placeholder (tf.int32, shape=[batch size, 1]) 

valid dataset = tf.constant (valid examples, dtype=tf.int32) 

# 相关 变量 . 

# embedding, vector for each word in the vocabulary 

embeddings = tf.Variable (tf.random uniform([vocabulary size,embedding size], 
-1.0, 1.0, dtype=tf.float32)) 

softmax weights =tf.Variable(tf.truncated normal([vocabulary size, 
embedding size], stddev=1.0 / math.sqrt (embedding size), dtype=tf.float32)) 

softmax biases =tf.Variable(tf.zeros([vocabulary size], dtype=tf.float32)) 

stacked embedings = None 


for i in range (2*window size): 
embedding i = tf.nn.embedding lookup (embeddings,train dataset[:,i] 
x size,y_size = embedding i.get shape().as list() 
if stacked embedings is None: 
stacked embedings =tf.reshape (embedding i, [x size,y _ size,1]) 
else: 


stacked embedings =tf.concat (axis=2,values=[stacked embedings,tf. 
reshape (embedding i, [x size,y_ size,1])]) 


mean _ embeddings tf.reduce mean(stacked embedings,2,Keepdims=False) 


接 下 来 ， 我 们 将 基于 Unigram 分 布 对 负 样 例 进 行 采样 。 为 此 ， 我 们 将 调用 TensorFlow 的 内 置 
函数 tfnn.fixed_unigram candidate_sampler: 


candidate sampler = tf.nn.fixed unigram candidate sampler(true classes = 
tf.cast (train labels,dtype=tf.int64),num true = 1, num sampled = 


num sampled,unique 


True, range max = vocabulary size, 
distortion=0.75,num reserved ids=0, nigrams=unigrams, 
name='unigram sampler') 

loss = tf.reduce mean(tf.nn.sampled softmax loss (weights=softmax weights, 
biases=softmax biases, inputs=mean embeddings, 
labels=train labels, num sampled=num sampled, 
num classes=vocabulary size, 


sampled values=candidate sampler)) 
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通常 ， 我 们 的 实现 过 程 会 执行 以 下 步骤 : 

(1) 定义 变量 、 占 位 符 和 超 参数 。 

(2) 对 于 每 批 数据 ， 会 有 以 下 情况 : 

通过 查找 上 下 文 窗口 每 个 索引 的 词 向 量 并 对 它们 求 平均 来 计算 平均 输入 词 向 量 和 矩阵 。 
通过 负 采 样 计算 损失 ， 根 据 Unigram 分 布 进行 采样 。 

使 用 随机 梯度 下 降 优 化 神经 网 络 。 


4.6.2 ” 降 采 样 


1. 相关 理论 概要 


降 采 样 ， 也 就 是 我 们 常 说 的 子 采样 ,也 有 下 采样 之 说 ,其 基本 思想 就 是 在 模型 训练 时 根据 概率 
情况 随机 丢掉 高 频 词 (通常 是 一 些 无 效 词 ， 例 如 停顿 词 等 )。 在 数学 上 ， 这 是 通过 忽略 语料库 中 词 


序列 中 的 词 wi; 来 实现 的 。 
t 
Paiscarad (Wi) = Fw 


其 中 ，! 是 一 个 先 验 参数 ， 一 般 取 为 10C3， 它 用 于 控制 被 忽略 词 的 词 频率 阔 值 。F(wi) 是 wi 在 
语 料 中 出 现 的 频率 。 这 有 效 地 降低 了 停 用 词 ( 例 如 ，“the”“a”“of”“。” 和 “，”) 的 频率 ， 
从 而 在 数据 集中 创建 更 多 平衡 。 

相关 实验 研究 表明 ， 这 种 降 采 样 技术 可 以 显著 提高 低频 词 词 向 量 的 准确 度 。 

2. 降 采 样 实施 


降 采 样 的 实现 思路 是 从 原始 序列 中 创建 一 个 新 的 词 序列 ， 通 过 从 刚刚 看 到 的 概率 中 删除 序列 中 的 
词 ， 并 使 用 这 个 新 的 词 序 列 来 学 习 词 向 量 。 完 整 代码 见 ch4 文件 夹 中 的 4 comparison.ipynb 文件 。 


4.6.3 CBOW 和 其 扩展 类 型 比较 


对 于 CBOW、 基 于 unigram 负 采 样 的 CBOW (Unigram) 、 基 于 Unigram 负 采 样 和 降 采 样 的 
CBOW 的 对 比 ， 通 过 代码 执行 得 到 图 4-29 所 示 的 结果 ， 我 们 从 中 可 以 看 到 随 着 迭代 次 数 的 增加 ， 
各 个 类 型 的 损失 函数 的 变化 情况 。 完 整 代码 见 ch4 文件 夹 中 的 4_ comparison ipynb 文件 。 

通过 图 示 ， 我 们 发 现 一 个 现象 : 基于 Unigram 负 采 样 和 降 采 样 的 CBOW 与 基于 仅 有 Unigram 
负 采 样 的 CBOW 相 比 ， 随 着 迭代 次 数 的 增加 ， 损 失 函 数 的 变化 曲线 基本 一 致 。 然 而 ， 实 际 上 ， 这 
不 应 该 被 误解 为 降 采 样 在 学 习 问 题 的 能 力 上 缺乏 优势 。 之 所 以 有 这 种 特殊 情况 出 现 , 是 因为 与 降 采 
样 一 样 ， 我 们 去 掉 了 许多 无 用 词 〈 无 信息 词 ) 引起 文本 质量 随 之 提升 〈 就 信息 质量 而 言 ) 。 然 而 ， 
这 也 反 过 来 导致 学 习 问 题 的 能 力 提升 变 得 更 加 困难 , 因为 在 最 初 的 问题 设置 中 , 词 向 量 有 机 会 在 优 
化 过 程 中 利用 大 量 无 信息 词 ， 而 在 新 的 问题 设置 中 ， 这 种 机 会 变 得 很 少 。 
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原始 CBOW 与 各 类 改进 cBOW 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 


CBOW 
a25 必 一 一 CBOW (Unigram) 
aom ~~、 一 一 CBOW (Unigram+Subsamp1ing) 
类 275 


40000 60000 80000 100000 
迭代 次 数 (lterations) 


图 4-29 原始 CBOW 及 其 两 个 扩展 类 型 的 损失 变化 
4.7 结构 化 Skip-Gram 和 连续 窗口 模型 


Word2vec 技术 在 获取 词语 义 方面 非常 强大 ， 但 是 它们 并 非 没 有 限制 。 例 如 ， 它 们 不 关注 上 下 
文 词 和 目标 词 之 间 的 距离 ,但 是 如 果 上 下 文 词 远 离 目 标 词 ,那么 其 对 目标 单词 的 影响 会 更 小 ,因此 ， 
我 们 需要 讨论 在 上 下 文中 单独 关注 不 同 词 所 在 位 置 的 技术 。Word2vec 的 另 一 个 限制 是 它 在 计算 词 
向 量 时 只 关注 给 定 词 周围 一 个 非常 小 的 窗口 ， 然 而 ， 实 际 上 , 应 该 考虑 在 整个 语料库 中 共同 出 现 的 
词 的 方式 来 计算 合适 的 词 向 量 。 因 此 ， 我 们 将 研究 一 种 技术 ， 它 不 仅 可 以 查看 词 的 上 下 文 ， 还 可 以 
查看 词 的 全 局 共 现 信息 。 


4.7.1 结构 化 Skip-Gram 算法 


先前 讨论 的 Skip-Gram 算法 及 其 所 有 变 体 忽略 了 给 定 上 下 文中 词 的 本 地 化 。 换 名 话说， 标准 
Skip-Gram 算法 无 法 利用 上 下 文 词 的 准确 位 置 ， 而 只 能 同等 地 处 理 给 定 上 下 文中 的 所 有 词 。 例 如 ， 
让 我 们 考虑 一 个 句子 : 


The dog barked at the mailman. 


我 们 考虑 目标 词 barked， 那 么 barked 这 个 词 的 上 下 文 就 是 "the"“dog”atf" 和 *the"“mailman"。 我 
们 将 组 成 5 个 数据 点 〈“barked”，*the") 、 (“barked”, “dog”) 、 (“barked”, “at”) 、(“barked”，, 
“the") 和 (“barked”，“mailman”) ， 其 中 元 组 的 第 一 个 元 素 是 输入 词 ， 第 二 个 元 素 是 输出 词 。 如 
果 我 们 考虑 来 自 这 个 集合 的 两 个 数据 点 (“barked”，“the”) 和 (“barked”，“dog”) ， 标 准 Skip-Gram 
算法 将 在 优化 过 程 中 平等 对 待 这 两 个 元 组 。 换 句 话 说 ，Skip-Gram 忽略 了 上 下 文中 词 的 实际 位 置 ， 
而 从 语言 学 的 角度 来 看 ， 元 组 (“barked”，“dog”) 显然 比 (“barked”"，“the”) 包含 更 多 的 信息 。 接 
下 来 ， 结 构 化 的 Skip-Gram 算法 将 试图 解决 这 个 限制 。 让 我 们 具体 看 一 下 。 

如 图 4-30 所 示 ， 结 构 化 的 Skip-Gram 算法 使 用 下 面 的 架构 来 解决 上 面 标准 Skip-Gram 算法 遇 
到 的 限制 问题 。 
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图 4-30 结构 化 的 Skip-Gram 
如 图 4-30 所 示 ， 结 构 化 Skip-Gram 在 优化 期 间 保 留 了 上 下 文 词 的 结构 或 本 地 化 的 形式 ， 但 是 
它 需 要 更 多 的 内 存 空间 ， 因 为 参数 的 数量 与 窗口 大 小 呈 线 性 关系 。 有 具体 来 讲 ， 假 设 Skip-Gram 模型 
的 窗口 大 小 为 m (目标 词 一 侧 的 词 数量 ) ， 如 果 标 准 Skip-Gram 模型 在 softmax 层 有 了 个 参数 ， 那 
么 结构 化 Skip-Gram 模型 将 有 2mP 个 参数 ， 因 为 我 们 在 上 下 文 窗口 中 为 每 个 位 置 都 设置 了 一 组 P 
参数 。 
关于 损失 函数 ， 标 准 Skip-Gram 模型 的 负 采 样 softmax 损失 函数 如 下 所 示 : 
N-m i+m 


10= (mz) 2 2, ofe(ooreoo)) 


i=m+1 j#ij=i-—m 
k 
皇 > E(wa-vocabulary—wiw)) log (c (-iogtpcoea)) 
q=1 


而 结构 化 Skip-Gram 使 用 以 下 损失 函数 : 


N-—m it+m 


1(6) = > -一 一 > 区 log (c (ostteceotw)) 


p= i=m+1 jz#ij=i—m 


k 
EE > E(w -vocabulary—wiw)) log (c (-iog itp Cem) (wg))) 
q=1 


这 里 ， 使 用 第 p 组 softmax 权重 值 和 对 应 于 wj 位 置 索引 的 softmax 偏差 来 计算 logity (xn)(wj)。 
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完整 实现 代码 ， 可 参考 ch4 文件 夹 中 的 4 word2vec_extended.ipynb 文件 。 
首先 ， 我 们 将 定义 输入 和 输出 占 位 符 : 
train dataset = tf.placeholder (tf.int32, shape=[batch size]) 


train labels = [tf.placeholder (tf.int32, shape=[batch size, 1]) for in 


range (2*window size)] 


然后 我 们 将 从 训练 输入 和 标签 处 开始 定义 计算 损失 : 


# 相关 变量 
embeddings = tf.Variable( 


tf.random uniform([vocabulary size, embedding size],-1.0, 1.0)) 
softmax weights = [tf.Variable(tf.truncated normal([vocabulary size, 
embedding sizel],stddev=0.5 / math.sqrt (embedding size))) for _ in 
range (2*window_ size)] 
softmax biases =[tf.Variable(tf.random uniform([vocabulary size],0.0,0.01)) 
for _ in range(2*window size)] 


# 相关 模型 


embed = tf.nn.embedding lookup (embeddings, train dataset) 
# Compute the softmax loss, using a sample of the negative labels each time. 
loss = tf.reduce_ sum( 


[ 


tf.reduce mean(tf.nn.sampled softmax loss (weights=softmax weights[wi], 

biases=softmax biases[wi], inputs=embed, labels=train labels[wil], 

num_ sampled=num sampled, num classes=vocabulary size)) 

for wi in range (window size*2) 

] 
EE 

结构 化 Skip-Gram 解决 了 标准 Skip-Gram 算法 的 一 个 重要 限制 , 即 在 学 习 过 程 中 注意 上 下 文 词 
的 位 置 。 这 是 通过 引入 一 组 单独 的 softmax 权重 值 和 对 上 下 文 每 个 词 位 置 的 偏差 来 实现 的 ， 这 将 有 
助 于 优化 模型 性 能 ， 但 也 因为 参数 的 增加 而 需求 更 多 的 内 存 空 间 。 接 下 来 ， 我 们 将 看 到 与 CBOW 
模型 类 似 的 扩展 。 


4.7.2 连续 窗口 模型 


连续 窗口 模型 (Continuous Window Model) 是 类 似 于 结构 化 Skip-Gram 模型 而 扩展 出 的 CBOW 
模型 。 在 原始 CBOW 算法 中 ， 在 传 给 softmax 层 之 前 ， 将 所 有 上 下 文 词 找到 的 词 向 量 进行 平均 化 
处 理 ， 而 在 连续 窗口 模型 中 ,不 是 对 词 向 量 进行 平均 ,而 是 将 它们 连接 起 来 ， 从 而 产生 mXD 长 的 
词 向 量 ， 其 中 Doms 是 CBOW 算法 的 原始 词 向 量 大 小 Embedding Size) 。 图 4-31 给 出 了 连续 窗口 
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图 4-31 连续 窗口 模型 结构 示意 图 


在 本 节 中 ， 我 们 讨论 了 两 种 扩展 的 Skip-Gram 和 CBOW 算法 ， 这 两 种 变 体 基 本 上 利用 了 上 下 
文中 词 的 位 置 ， 而 不 是 同等 地 看 待 给 定 上 下 文中 的 所 有 词 。 接 下 来 ， 我 们 将 讨论 另 一 种 著名 模型 
一 一 GloVe( Global Vectors Representation, 全 局 向 量 表示 ) 模 型 ,我 们 将 看 到 GloVe 克 服 了 Skip-Gram 
和 CBOW 固有 的 某 些 限制 。 


4.8 ”GloVe 模型 


关于 学 习 词 向 量 表示 , 这 里 主要 有 两 类 模型 系列 : 全 局 矩阵 分 解 方法 , 如 潜在 语义 分 析 (LSA) 
(Deerwester 等 , 1990); @ 局 部 上 下 文 窗 口 方法 ,如 Skip-Gram 和 CBOW 模型 (Mikolov 等 ,2013 )。 

但 是 ， 目 前 这 两 类 模型 都 有 明显 的 缺点 ， 例 如 ， 尽 管 LSA 这 样 的 方法 能 有 效 地 利用 统计 信息 ， 但 
它们 在 词类 比 任务 上 的 表现 相对 较 差 ， 这 表明 了 它们 次 优 的 向 量 空间 结构 。Skip-Gram 这 样 的 方法 
可 能 在 词类 比 上 表现 更 好 , 但 它们 在 利用 语料库 的 统计 信息 上 表现 并 不 好 ,因为 它们 是 在 分 离 的 局 
部 上 下 文 窗口 中 训练 的 ,而 不 是 在 全 局 的 共 现 (Co-Occurrence) 计数 上 训练 的 。GloVe 模型 试图 充 
分 整合 利用 这 两 个 领域 一 一 一 种 有 效 利用 全 局 语料库 统计 数据 的 方法 , 同时 以 基于 上 下 文 窗口 的 方 
式 优化 学 习 模型 ， 类 似 于 Skip-Gram 或 CBOW。 

对 于 GloVe 模型 而 言 ， 其 主要 目标 是 将 词 进行 向 量化 表示 ， 以 便 使 各 个 向 量 之 间 能 够 尽 可 能 
多 地 涵盖 语 境内 的 语义 和 语法 信息 。 通 过 输入 语料库 而 输出 词 向 量 。 实现 方法 为 : 首先 基于 整个 语 
料 库 构 建 词 的 共 现 矩阵 ， 然 后 基于 共 现 矩阵 和 GloVe 模型 处 理学 习 词 向 量 。 

滑铁卢 大 学 Vineet John 于 2017 年 4 月 撰写 的 一 篇 论文 《4 Survey of Neural Network Techniques 
Jor Feature Extraction from Text》 中 提出 ， 任 意 词 之 间 的 关系 都 可 以 通过 研究 它们 的 共 现 概率 与 多 
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个 探测 词 (Probe Word) 之 间 的 比例 来 检验 ， 且 词 向 量 学 习 的 合理 起 点 应 该 是 共 现 概率 的 比例 ， 而 
非 概率 本 身 。 那 么 我 们 可 以 将 这 种 共 现 关系 表示 成 以 下 形式 : 


Pe 
F((wi — wj) wx) = Bo 


4.8.1 共 现 矩阵 


设 共 现 矩阵 为 区 ， 其 元 素 为 Xe 站。 
这 里 ，Xij 是 指 在 整个 语料库 中 词 ?和 词 7 共同 出 现在 一 个 窗口 中 的 次 数 。 
下 面 以 一 句 话 为 例 进 行 解读 : 


The dog barked at the mailman. 


上 面 这 个 句子 就 是 一 个 语料库 ， 该 语料库 包含 5 个 单词 : the、dog、barked、at、mailman。 
定义 单 侧 窗 口 大 小 window_size 为 2， 则 整个 窗口 宽度 (大 小 ) 为 2*window_size 十 1 =5， 那 
么 我 们 就 可 以 给 出 窗口 宽度 为 5 的 统计 窗口 ， 具 体 如 表 4-1 所 示 。 


表 4-1 窗口 宽度 为 5 的 统计 窗口 


窗口 标号 中 心 词 窗口 内 容 

0 the the dog barked 

1 dog the dog barked at 

和 barked the dog barked at the 

3 at dog barked at the mailman 
4 the barked at the mailman 

3 mailman at the mailman 


考虑 到 中 心 词 两 侧 保证 至 少 2 个 单词 的 情况 ， 现 在 以 中 心 词 为 at 的 窗口 内 容 为 例 ， 语 境 词 为 
dog barked at the mailman， 则 将 整个 窗口 遍历 一 次 即 可 得 到 共 现 矩阵 臣 ， 如 下 : 


i 


(arparkea) +-1 


(atthe) 1 


ZX = 


(atmailman) 本 


4.8.2 ”使 用 GloVe 模型 训练 词 向 量 


我 们 假设 ="dog" 和 j="cat"， 且 给 出 一 个 探测 词 k， 那 么 可 以 定义 Pix 为 词 1 和 词 k 在 一 起 出 现 
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的 概率 ，Bjx 为 词 j 和 词 k 一 起 出 现 的 概率 。 这 时 , 对 于 k="bark", 它 很 可 能 与 i 一 起 出 现 , 因此 Pi 会 
很 高 ， 然 而 ，k 不 会 经 常 与 j 一 起 出 现 则 导致 低 Bx。 因 此 ， 下 式 成 立 : 
PVPk2> 1 
如 果 ="whiz", 那 它 不 太 可 能 出 现在 i 的 附近 , 因此 将 具有 低 的 Pix; 但 由 于 与 j 高 度 相关 ， 
因此 Pi 的 值 将 很 高 。 所 以 ， 这 会 导致 以 下 结果 : 
Pix /Prks 0 
如 果 k="pet"， 那 它 与 1 和 j 都 有 很 强 的 关系 ,或 者 k="lawyer"， 其 中 i 和 j 两 者 都 有 最 小 的 相 
关 性 ， 我 们 可 以 得 到 : 
Pix /Pxs 1 
由 此 我 们 得 知 ， 通 过 统计 彼此 相近 两 个 词 的 频数 可 以 计算 其 对 应 共 现 概率 Px、Px， 进 而 可 以 
得 到 二 者 比率 与 1 的 关系 ， 最 终 可 以 得 到 词 之 间 的 关系 情况 。 所 以 ，Px / Px 就 成 为 学 习 词 向 量 的 
重要 方法 ， 下 面 给 出 最 通用 的 表示 形式 : 


Pik 
F((wi — wj) wx) = Bo 


经 过 一 系列 的 推导 ， 我 们 最 终 会 得 到 以 下 损失 函数 : 


V 
1= 》 HG WW + bi+B logXy) 


= 


关于 这 里 的 推导 过 程 ， 感 兴趣 的 读者 可 以 查看 Jeffrey 等 人 的 论文 《GloVe: Global Vectors for 
Word Representation》， 里 面 给 出 了 详细 的 推导 过 程 。 下 面 我 们 看 看 GloVe 模型 的 实现 。 


4.8.3 ”GloVe 模型 实现 


这 部 分 的 完整 代码 见 ch4 文件 夹 中 的 4_glove.ipynb 文件 。 
首先 ， 我 们 将 定义 输入 和 输出 : 


train dataset = tf.placeholder (tf.int32, 
shape=[batch size],name='train dataset') 
train labels = tf.placeholder (tf.int32, 


shape=[batch size],name='train labels') 


接 下 来 , 我 们 将 定义 两 个 不 同 的 词 嵌 入 层 : 一 个 用 于 查找 输入 词 ， 另 一 个 用 于 查找 输出 词 。 另 
外 ， 我 们 将 定义 词 向 量 偏差 ， 就 像 我 们 对 softmax 层 的 偏差 一 样 : 


in embeddings = tf.Variable(tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0), name='embeddings') 


in bias embeddings = tf.Variable(tf.random uniform([vocabulary size]， 
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0.0,0.01, dtype=tf.float32), name='embeddings bias') 
out embeddings = tf.Variable (tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0), name="'embeddings') 
out bias embeddings = tf.Variable(tf.random uniform([vocabulary sizel], 
0.0,0.01, dtype=tf.float32), name="'embeddings bias') 


现在 ， 我 们 将 查找 给 定 输入 词 和 输出 词 〈 标 签 》 对 应 的 词 向 量 : 


embed in = tf.nn.embedding lookup (in embeddings, train dataset) 
embed out = tf.nn.embedding lookup (out embeddings, train labels) 
embed bias in = tf.nn.embedding lookup (in bias embeddings, train dataset) 
embed bias out = tf.nn.embedding lookup (out bias embeddings, train labels) 


此 外 ,我们 将 在 损失 函数 中 定义 了 (Xij) (weights x》 和 Xi; (xij) 的 占 位 符 : 


weights x = tf.placeholder (tf.float32, shape=[batch size],name='weights x') 
x ij = tf.placeholder (tf.float32, shape=[batch size], name='x ij') 


最 后 ， 我 们 将 定义 完全 损失 函数 ， 如 下 所 示 : 


loss = tf.reduce mean(weights x * (tf.reduce sum(embed in*embed out,axis=1) + 


embed bias in + embed bias out - tf.1og(epsilon+x ij))**2) 


在 本 节 中 , 我 们 研究 了 词 嵌 入 的 另 一 个 重要 技术 : GloVe 模型 。 GloVe 相对 于 之 前 的 Word2vec 
技术 ， 主 要 优点 是 它 注重 语料库 的 全 局 和 局 部 统计 学 习 ， 以 便 更 深入 地 学 习 词 向 量 。 由 于 GloVe 
能 够 捕获 有 关 词 的 全 局 信息 ， 因 此 它们 往往 会 提供 更 好 的 性 能 表现 ， 尤 其 是 当 语 料 库 大 小 增加 时 。 
另外 ， 与 Word2vec 技术 不 同 ，GloVe 不 是 近似 损失 函数 (例如 ， 使 用 负 和 采样 的 Word2vec) ， 而 是 
计算 真实 损失 函数 ， 这 样 对 于 模型 损失 函数 的 优化 会 更 加 有 利 。 


4.9 使 用 Word2Vec 进行 文档 分 类 


尽管 Word2vec 提供 了 一 种 非常 优雅 的 方法 来 学 习 词 的 数字 表示 , 正如 我 们 在 定量 上 看 到 的 ( 损 
失 值 ) 和 定性 上 看 到 的 〈tSNE 词 嵌 入 ) ,仅仅 进行 学 习 词 表示 并 不 足以 说 明 在 现实 世界 中 词 向 量 
的 应 用 能 力 。 其 实 ， 词 嵌入 (Word Embedding) 已 被 用 于 许多 工作 任务 的 词 特征 表示 中 ， 例 如 图 
像 标题 生成 和 机 器 翻译 。 然 而 ， 这 些 任 务 涉及 不 同学 习 模 型 的 组 合 〈 例 如 卷 积 神经 网 络 (CNN) 
和 长 短期 记忆 (LSTM) 模型 或 两 个 LSTM 模型 ) 。 这 些 将 在 后 面 的 章节 中 讨论 。 为 了 理解 词 嵌入 
的 实际 使 用 方法 ， 这 里 将 使 用 一 个 较为 简单 的 工作 任务 一 一 文档 分 类 。 

文档 分 类 是 NLP 中 最 受 欢 迎 的 任务 之 一 。 文 档 分 类 对 于 处 理 大 量 数据 集合 的 人 员 非 常 有 用 ， 
例如 新 闻 网 站 、 出 版 商 和 大 学 。 因 此 ， 有 意思 的 是 学 习 词 向 量 如 何 通过 嵌入 整个 文档 而 不 是 词 来 
适应 真实 世界 的 任务 ， 比 如 说 文档 分 类 便 是 如 此 。 

本 节 的 代码 见 ch4 文件 夹 中 的 4 document_ embedding.ipynb 文件 。 
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4.9.1 数据 集 


对 于 此 任务 ， 我 们 将 使 用 已 组 织 好 的 一 组 文本 文件 ， 这 些 都 是 BBC 的 新 闻 文 章 ， 本 系列 中 的 
每 个 文档 都 属于 以 下 类 别 之 一 : 商业 、 娱 乐 、 政 治 、 体 育 或 技术 。 我 们 使 用 每 个 类 别 中 的 250 个 
文档 , 词汇 量 大 小 为 25000 个 。 此外, 每 个 文档 将 由 < 文档 类 型 > - <id> 标 记 表 示 , 以 便 进 行 可 视 化 。 
例如 ， 娱 乐 部 分 的 第 50 个 文档 将 表示 为 entertainment-50。 应 该 注意 的 是 ， 与 在 实际 应 用 中 分 析 的 
大 型 文本 语料库 相 比 ， 这 是 一 个 非常 小 的 数据 集 。 然而， 目前 这 个 小 例子 足以 看 到 词 向 量 的 性 能 表 
现 情况 。 

以 下 是 来 自 实际 数据 的 几 个 简短 片段 : 

Business 

Japan narrowly escapes recession 

Japan's economy teetered on the brink of a technical recession in the three months 
to September, figures show. 

Revised figures indicated growth of just 0.1% - and a similar-sized contraction 
in the previous quarter. On an annual basis, the data suggests annual growth of 
TUust 0295 

Technology 

UK net users leading TV downloads 

British TV viewers lead the trend of illegally downloading US shows from the 
net, according to research. 

New episodes of 24, Desperate Housewives and Six Feet Under, appear on the web 
hours after they are shown in the US, said a report. Web tracking company Envisional 
said 18% of downloaders were from within the UK and that downloads of TV programmers 

had increased by 150% in the last Year.… 


4.9.2 使 用 词 向 量 对 文档 进行 分 类 


这 里 ， 我 们 看 看 诸如 Skip-Gram 或 CBOW 之 类 的 词 嵌 入 方法 是 否 可 以 扩展 到 文档 分 类 或 文档 
聚 类 应 用 中 。 由 于 CBOW 算法 已 被 证 明 在 使 用 更 小 的 数据 集 上 比 Skip-Gram 表现 更 好 ， 因 此 ， 这 
里 我 们 将 使 用 CBOW 算法 。 


(1) 从 所 有 文本 文件 中 提取 数据 并 学 习 词 向 量 。 

(2) 从 已 经 训练 过 的 文档 中 提取 一 组 随机 文档 。 

(3) 扩展 学 习 词 向 量 以 嵌入 这 些 选 定 的 文档 。 更 具体 地 说 ， 我 们 将 通过 找到 属于 文档 中 的 所 
有 词 向 量 的 平均 值 来 表示 文档 。 

(4) 使 用 tSNE 可 视 化 技术 找到 文档 向 量 ， 以 查看 词 向 量 是 否 可 用 于 文档 聚 类 或 分 类 。 

(5) 最 后 ， 可 以 使 用 诸如 K-means 之 类 的 聚 类 算法 来 为 每 个 文档 分 配 标签 。 


1. 学 习 词 向 量 
首先 ， 我 们 将 为 训练 数据 、 训 练 标签 、 验 证 数据 (用 于 监控 词 向 量 ) 和 测试 数据 (用 于 计算 
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测试 文档 的 平均 向 量 ) 定义 多 个 占 位 符 : 


# Input data. 

train dataset = tf.placeholder (tf.int32,shape=[batch size, 2*window size]) 
train labels = tf.placeholder (tf.int32, shape=[batch size, 1]) 

valid dataset = tf.constant (valid examples, dtype=tf.int32) 

test labels = tf.placeholder (tf.int32, shape=[batch size], 


name='test dataset') 


接 下 来 ， 我 们 将 为 词汇 表 、softmax 权重 值 和 偏差 定义 词 向 量变 量 〈 用 于 计算 测试 文档 的 平均 
向 量 ) : 

embeddings = tf.Variable(tf.random uniform([vocabulary size,embedding size], 
-1.0, 1.0, dtype=tf.float32)) 

softmax weights = tf.Variable( 


tf.truncated normal([vocabulary size, embedding sizel], 
stddev=1.0 / math.sqrt (embedding size), dtype=tf.float32)) 


softmax biases = tf.Variable(tf.zeros([vocabulary size], dtype=tf.float32)) 
然后 定义 采样 的 负 softmax 损失 函数 


loss = tf.reduce mean(tf.nn.sampled softmax loss (weights=softmax weights, 
biases=softmax biases, inputs=mean embeddings, 
labels=train labels, num sampled=num sampled,num classes=vocabulary size)) 


2. 词 嵌 入 到 文档 嵌入 

为 了 从 词 嵌入 中 获得 良好 的 文档 嵌入 ， 我 们 将 一 个 文档 中 所 有 词 向 量 平均 化 作为 该 文档 向 量 。 
这 里 我 们 将 分 批 处 理 相关 数据 。 为 此 ， 我 们 需要 完成 以 下 内 容 来 达到 此 目的 。 

对 于 每 个 文档 ， 执 行 以 下 操作 : 

(1) 创建 数据 集 ， 其 中 每 个 数据 点 都 是 属于 文档 的 词 。 

(2) 对 于 从 数据 集中 采样 到 的 小 批量 ， 通 过 对 小 批量 中 所 有 词 向 量 求 平均 来 返回 平均 向 量 。 

(3) 批量 遍历 测试 文档 并 通过 平均 小 批量 向 量 来 获取 文档 向 量 。 


我 们 将 得 到 的 平均 批量 向 量 如 下 : 


mean batch embedding = tf.reduce mean(tf.nn.embedding lookup (embeddings, 
test labels), axis=0) 


mean embeddings = tf.reduce mean(stacked embeddings, 2,kKkeepdims=False) 


接着 ,我 们 将 在 文档 中 所 有 批 次 的 列表 中 收集 这 些 平均 向 量 , 并 将 这 些 平均 向 量 作为 文档 向 量 。 
这 是 获取 文档 向 量 的 一 种 非常 简单 却 强大 的 方法 ， 下 面 就 会 看 到 。 
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3. 文档 向 量 的 文档 聚 类 和 t-SNE 可 视 化 

在 图 4-32 中 , 我 们 对 CBOW 算法 学 习 的 文档 向 量 进行 了 可 视 化 , 可 以 看 到 该 算法 在 学 习 具 有 
同样 主题 的 文档 方面 上 表现 还 不 错 。 正如 我 们 之 前 讨论 的 那样 , 在 以 无 人 监督 的 方式 对 文档 进行 分 
类 / 聚 类 方面 ， 这 种 简单 的 方法 已 被 证 明 是 一 种 非常 有 效 的 方法 。 

4. 检查 异常 值 

从 图 4-32 可 以 看 出 ， 产 生 异 常 值 的 文档 貌似 不 多 ，sport-130 和 sport-50 就 属于 少见 的 情况 ， 
下 面 我 们 对 于 这 些 文档 的 内 容 进 行 查看 分 析 ， 以 便 查 找 产 生 这 种 现象 的 原因 。 

利用 t-SNE 技 术 对 文档 嵌入 进行 可 视 化 处 理 
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图 4-32 文档 向 量 的 文档 聚 类 及 其 t-SNE 可 视 化 
以 下 是 sport-130 文档 的 片段 : 


sport-130 


Weir poised for Sunderland move 

Larne's teenage star Robbie Weir is poised to join Sunderland after turning down 
a move to Stoke City. 

The 17-year-old Irish League midfielder was also being chased by Rangers and 
Fulham, but Mick McCarthy's side appear to have won the race. But Larne boss Jimmy 


McGeough has yet to confirm that Weir is on his way from Inver Park. "I heard on 
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Sunday that he has joined Sunderland, but not from the lad himself," he said. ''Robbie 


has an agreement with Larne that he can negotiate with interested clubs. 


本 文档 主要 讨论 爱尔兰 联盟 中 场 球 员 罗 比 威 尔 加 盟 桑 德 兰 事件 的 影响 ， 而 不 是 像 其 他 Sport 文 
档 里 面 在 讨论 具体 的 体育 比赛 的 。 
以 下 是 sport-50 文档 的 片段 : 


IAAF awaits Greek pair's response 

Kostas Kenteris and Katerina Thanou are yet to respond to doping charges from 
the International Association of Athletics Federations (IAAF). 

The Greek pair were charged after missing a series of routine drugs tests in 
Tel Aviv, Chicago and Athens. They have until midnight on 16 December and an IAAF 
spokesman said: "We're sure their responses are on their way." If they do not respond 
or their explanations are rejected, they will be provisionally banned from 


competition. They will then face a hearing in front of the Greek Federation,… 


我 们 可 以 阐明 为 什么 sport-50 远离 其 他 与 体育 相关 的 文章 聚集 在 一 起 。 让 我 们 仔细 看 看 男 一 个 
接近 sport-50 的 文档 ， 即 Entertainment-115: 


Entertainment-115 

Rapper Snoop Dogg sued for 'rape' 

US rapper Snoop Dogg has been sued for $25m (£13m) by a make-up artist who 
claimed he and his entourage drugged and raped her two years ago. 

The woman said she was assaulted after a recording of the Jimmy Kimmel Live TV 
show on the ABC network in 2003. The rapper's spokesman said the allegations 
were "untrue" and the woman was "misusing the legal system as a means of 
extracting financial gain". ABC said the claims had "no merit". The star has 


not been charged by police. 


因此 , 该 地 区 的 文件 似乎 与 各 种 犯罪 或 非法 指控 有 关 ， 而 不 是 与 体育 或 娱乐 有 关 。 这 使 得 文档 
远离 其 他 典型 的 体育 或 娱乐 相关 文档 进行 聚 类 。 


5. 使 用 K-means 对 文件 进行 聚 类 /分 类 


到 目前 为 止 ， 我 们 已 经 能 够 直观 地 检查 文档 情况 ， 但 是 这 还 不 够 ， 因 为 如 果 有 1000 多 个 文档 
需要 聚 类 /分 类 ， 就 必须 在 视觉 上 检查 1000 次 ， 所 以 我 们 需要 更 自动 化 的 方法 来 实现 这 一 目标 。 

我 们 可 以 使 用 KK-means 来 聚 类 这 些 文 档 。 K-means 是 一 种 简单 但 功能 强大 的 技术 ， 用 于 根据 
数据 的 相似 性 将 数据 分 成 组 〈 集 群 ) ， 因 此 类 似 的 数据 将 位 于 同一 组 中 ,不 同 的 数据 将 位 于 不 同 的 
组 中 。K-means 的 工作 方式 如 下 : 


(1) 定义 ， 即 要 形成 的 簇 的 数量 。 我 们 将 其 设置 为 5， 表 示 有 5 个 类 别 。 
(2) 形成 天 个 随机 质心 ， 它 们 是 簇 的 中 心 。 
(3) 将 每 个 数据 点 分 配给 最 近 的 聚 类 质心 。 
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(4) 将 所 有 数据 点 分 配给 某 个 集群 后 ， 我 们 将 重新 计算 集群 质心 数据 点 的 平均 值 ) 。 
(5) 以 这 种 方式 继续 ， 直 到 质心 运动 变 得 小 于 某 个 阔 值 。 


这 里 使 用 scikit-leam 库 来 获得 K-means 算法 。 在 代码 中 ， 如 下 所 示 : 


kmeans = KMeans(n clusters=5, random state=43643, max iter=10000,n init=100, 


algorithm='elkan') 


最 重要 的 超 参数 是 n_clusters， 它 是 我 们 想 要 形成 的 聚 类 数 。 可 以 使 用 其 他 超 参数 来 查看 它们 
对 性 能 的 影响 。 有 关 超 参数 的 解释 ， 请 访问 : http://scikit-learn.org/stable/modules/generated/sklearn. 
cluster.KMeans.html。 
接着 ， 将 用 于 训练 的 文档 分 类 到 具体 类 中 。 我 们 将 获得 表 4-2 中 的 内 容 。 
它 看 起 来 似乎 并 不 完美 ， 但 是 可 以 很 好 地 将 属于 不 同类 别 的 文档 分 类 到 不 同 的 标签 。 
表 4-2 获得 的 内 容 


类 标签 文档 


[business-179', ‘entertainment-167', 'politics-5', ‘sport-200"', 'sport-93', 'sport-105', 


Tt-31", 'sport-173", 'sport-130", 'sport-34", 'sport-182', 'sport-100" 


['entertainment-79', 'entertainment-88', "entertainment-105'. 'entertainment-59", 


"entertainment-139", 'entertainment-227", 'entertainment-126" 
['politics-10', 'politics-78', ‘tech-177', ‘tech-117', tech-101', ‘tech-125', ‘tech-44', 
"tech-103', "tech-216', "tech-195', "tech-241'. "tech-151" 


[business-71', "business-111'， "business-104'， ‘business-31', ‘business-150', 
"business-149', 'business-197', ‘business-120','business-79','entertainment-205', 


"entertainment-115', "politics-143'， 'politics-121', ‘politics-41', ‘politics-85', 


Politics-46' Politics-108' 'politics-156" 


4 [sport-77] 


4.9.3 小 结 


在 本 节 中 ， 我 们 学 习 了 如 何 将 词 嵌入 扩展 到 分 类 / 聚 类 文档 。 首 先 ， 学 习 了 词 嵌 入 。 然 后 ， 我 
们 通过 对 该 文档 中 找到 的 所 有 词 向 量 进行 平均 来 创建 文档 向 量 。 接 着 ， 我 们 使 用 文档 向 量 来 分 类 / 
聚 类 属于 这 些 类 别 的 BBC 新 闻 文 章 : 娱乐 、 科 技 、 政 治 、 商 业 和 体育 。 在 对 文档 进行 聚 类 之 后 ， 
我 们 看 到 文档 被 合理 地 聚 类 ， 使 得 属于 一 个 类 别 的 文档 聚集 在 一 起 。 但 是 ， 对 于 一 些 异 常 文件 ,我 
们 在 分 析 了 这 些 文档 的 文本 内 容 之 后 ， 发 现 这 些 文档 背后 存在 某 些 合理 的 关联 。 
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4.10 总 结 


[| 


在 本 章 中 ， 我 们 研究 了 Word Embedding 的 几 种 重要 模型 : Word2vec (Skip-Gram、CBOW) 
和 GloVe 模型 ， 对 原始 Skip-Gram、 改 进 型 Skip-Gram、 原 始 CBOW、 改 进 型 CBOW 等 之 间 的 性 
能 差异 做 了 对 比分 析 。 为 了 方便 比较 ， 我 们 使 用 了 一 种 流行 的 二 维 可 视 化 技术 t+SNE。 

然后 ， 我 们 又 介绍 了 Word2vec 算法 的 几 个 扩展 ， 以 提高 其 性 能 ， 然 后 是 几 个 基于 Skip-Gram 
和 CBOW 算法 的 新 算法 .结构 化 Skip-Gram 通过 在 优化 期 间 保留 上 下 文 词 的 位 置 来 扩展 Skip-Gram 
算法 , 允许 算法 基于 它们 之 间 的 距离 来 处 理 输入 词 -输出 词 。 相同 的 扩展 也 可 以 应 用 于 CBOW 算法 ， 
这 里 给 出 了 连续 窗口 算法 。 

接 下 来 ， 我 们 讨论 了 另 一 个 词 嵌入 学 习 技 术 : GloVe 模型 。GloVe 通过 将 全 局 统计 数据 合并 到 
优化 中 ， 使 当前 的 Word2vec 算法 更 进一步 ， 从 而 提高 了 性 能 。 

最 后 ， 我 们 讨论 了 使 用 词 向 量 -文档 聚 类 /分 类 的 实际 应 用 ， 发 现 词 向 量 非常 强大 ， 并 且 允 许 我 
们 将 相关 文档 合理 地 聚集 在 一 起 。 

在 下 一 章 中 ， 我 们 将 讨论 深度 学 习 的 代表 算法 之 一 一 一 卷 积 神经 网 络 CNN) ， 并 将 讲述 如 
何 使 用 CNN 来 利用 句子 的 空间 结构 对 它们 分 类 。 


卷 积 神经 网 络 与 句子 分 类 


在 本 章 中 ， 我 们 将 介绍 一 个 众所周知 的 神经 网 络 一 一 卷 积 神经 网 络 CNN) ， 根 据 维基 百科 
的 定义 , 它 是 一 类 深度 前 馈 人 工 神经 网 络 ， 最 初 是 为 解决 图 像 识别 等 问题 而 设计 的 ， 以 便 降低 对 图 
像 数 据 预 处 理 的 要 求 及 避免 复杂 的 特征 提取 。CNN 模型 对 缩放 、 平 移 、 旋 转 等 畸变 具有 不 变性 ， 
有 很 强 的 泛 化 能 力 ， 这 一 点 与 SIFT 等 算法 类 似 ， 所 以 它 也 被 称 为 位 移 不 变 或 空间 不 变 的 人 工 神经 
网 络 (SIANN) 。 而 CNN 最 大 的 特点 是 卷 积 的 权重 值 共享 结构 ， 可 以 大 幅度 减少 神经 网 络 的 参数 
数量 ， 防 止 过 拟 合 ， 同 时 又 降低 了 神经 网 络 模型 的 复杂 程度 ， 这 样 一 来 ,我们 在 进行 深度 模型 训练 
时 性 能 表现 更 佳 且 又 不 必 担 心 内 存 溢出 。 虽 然 CNN 最 初 主 要 是 为 解决 图 像 问题 而 设计 的 ， 但 是 现 
在 它 在 目标 检测 、 视 频 识别 、 推 荐 系统 和 自然 语言 处 理 方面 也 得 到 广泛 的 应 用 。 

在 本 章 中 ， 我 们 会 对 CNN 的 来 龙 去 脉 、 组 成 部 分 、 基 本 运算 单元 、 基 本 原理 进行 详细 解读 ， 
接着 , 我 们 会 分 析 4 类 常见 的 经 典 卷 积 网 络 的 结 架构 和 特性 ， 最 后 我 们 会 给 出 两 个 应 用 案例 : 手写 
数字 识别 和 基于 卷 积 神经 网 络 的 句子 分 类 。 


5.1 认识 卷 积 神经 网 络 
5.1.1 卷 积 神经 网 络 的 历史 演变 


卷 积 神经 网 络 的 理念 起 源 于 早期 科学 家 Sherrington 首次 提出 的 感受 野 概 念 Receptive Field， 
《Observations on the scratch -reflex in the spinal dog》， 第 一 次 出 版 日 期 为 1906 年 3 月 13 日 )。 
Sherrington(1906) 首 次 使 用 术语 “感受 野 ” 来 描述 可 以 在 狗 身体 上 引起 划 痕 反射 的 皮肤 区 域 .Hartline 
于 1938 年 将 该 术语 应 用 于 单个 神经 元 。 二 十 世纪 五 六 十 年 代 ，Hubel 和 Wiesel 对 皮质 生理 学 使 用 
了 感受 野 组 织 这 个 概念 , 提出 了 这 样 的 理论 : 在 视觉 系统 一 个 层面 上 的 细胞 的 感受 野 是 由 视觉 系统 
较 低层 的 细胞 输入 形成 的 。 通 过 这 种 方式 ,可 以 组 合 小 而 简单 的 感受 野 , 再 形成 大 而 复杂 的 感受 野 。 
后 来 的 研究 人 员 通 过 允许 视觉 系统 的 一 个 层次 的 细胞 受到 来 自 更 高 层次 的 反馈 的 影响 , 阐述 了 这 种 
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简单 的 分 层 排 列 〈 来 自 维基 百科 ) 。 二 十 世纪 八 十 年 代 ， 日 本 科学 家 Kunihiko Fukushima 提出 了 
神经 感知 机 (Neocognitron) 的 概念 ， 被 认为 是 卷 积 网 络 实现 的 最 初 原 型 。 神 经 感知 机 中 包含 两 类 
神经 元 ， 即 S-cell 和 C-cell。 这 里 S-cells 用 于 特征 提取 ， 对 应 现在 主流 卷 积 神经 网 络 中 的 滤波 〈 也 
就 是 卷 积 核 ) 操作 ;”C-cell 用 于 抗 形变 ， 对 应 现在 的 激活 函数 、 最 大 池 化 等 操作 。 

正常 情况 下 ， 一 个 卷 积 神经 网 络 由 多 个 卷 积 层 组 成 ， 而 每 个 卷 积 层 又 会 进行 一 系列 操作 ， 有 具体 
如 下 : 


(1) 通过 多 个 不 同 的 滤波 和 偏差 提取 出 图 像 的 局 部 特征 ， 这 样 每 一 个 卷 积 核 都 会 映射 出 一 个 
新 的 二 维 图 像 。 

(2) 对 于 (1) 中 卷 积 核 滤波 后 的 输出 结果 进行 非 线 性 激活 函数 处 理 。 目 前 ，ReLU 函数 是 最 
流行 的 非 线性 激活 函数 。 

(3) 对 于 (2) 中 激活 函数 后 的 结果 再 进行 池 化 操作 〈 降 采样 ) 。 现 在 多 数 使 用 最 大 池 化 操作 
保留 最 显著 的 特征 ， 并 提升 模型 的 畸变 容忍 能 力 。 

卷 积 神经 网 络 的 发 展 路 径 如 图 5-1 所 示 。 关 于 卷 积 神经 网 络 的 历史 沿革 路 径 ， 这 里 就 不 做 过 多 
的 解读 了 。 


两 条 路 线 的 集成 ， 训 练 更 深 
的 网 络 结构 ， 加 速 收敛 


增强 卷 积 模块 功能 


从 分 类 任务 到 检测 任务 


增加 新 的 功能 单元 


Em 


图 5-1 卷 积 神经 网 络 发 展 路 径 图 


5.1.2” 卷 积 神经 网 络 结构 简 述 


最 初 , 输入 内 容 被 连接 到 一 组 卷 积 层 ,这 些 卷 积 层 在 输入 层 上 滑动 一 组 权重 值 (有 时 也 称 为 卷 
积 窗口 或 过 滤器 )， 并 通过 卷 积 操作 的 方式 产生 一 个 输出 。 卷 积 层 使 用 组 织 起 来 的 少量 权重 值 仅 能 
覆盖 每 层 中 的 一 小 部 分 输入 ,这 一 点 不 像 全 连接 那样 可 以 使 得 这 些 权重 值 在 某 些 维度 (例如, 图像 
的 宽度 和 高 度 尺寸 ) 可 以 实现 共享 。 由 于 CNN 使 用 卷 积 运算 ， 通 过 在 符合 要 求 的 维度 上 滑动 这 个 
小 的 权重 值 集合 来 共享 权重 值 以 便 产 生 输 出 ， 最 终 可 以 得 到 卷 积 运算 的 结果 ， 如 图 5-2 所 示 。 如 果 
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一 个 卷 积 过 滤器 输出 的 图 案 出 现在 原 图 像 中 , 那么 卷 积 输出 的 是 高 区 位 值 , 反之 , 就 是 低 区 位 值 . 后 
面 会 给 出 数字 化 解释 。 当 然 ， 我 们 也 可 以 发 现 ， 通 过 卷 积 各 运算 之 后 ， 最 后 得 到 了 一 个 矩阵 ， 该 矩 
阵 可 以 展现 出 前 面 映射 过 来 的 图 案 是 否 在 指定 图 像 中 出 现 ， 如 图 5-2 所 示 。 


Patches of 。 Convolution 
Actual Image 入 Filters 


图 5-2 卷 积 操作 在 图 像 上 的 展示 
此 外 ， 这 些 卷 积 层 可 选择 与 池 化 / 子 采样 层 混 合 在 一 起 使 用 ， 这 样 就 降低 了 输入 的 维度 。 当 我 
们 进行 降 维 操作 时 ， 不 但 能 迫使 CNN 学 习 较 少 的 信息 ， 而 且 可 以 让 CNN 的 不 变量 进行 转化 ， 从 
而 使 得 模型 得 到 更 好 的 归 一 化 和 正则 化 。 通 过 将 输入 《例如 图 像 ) 分 成 许多 很 小 的 小 块 并 将 每 个 小 
块 转换 成 单个 元 素 ， 维 度 就 被 降低 了 。 在 图 5-3 中 ， 我 们 将 说 明 如 何 进行 池 化 运算 使 CNN 的 不 变 
量 进 行 平移 。 


Actual Image Max Pool Output 
Achual Image Convolution Output Max Pool Output 


(translated on y axis) 
图 5-3 池 化 操作 帮助 CNN 进行 不 变量 平移 


在 图 5-3 中 ， 我 们 有 原始 图 像 和 在 轴 上 略微 平移 的 图 像 。 这 两 个 图 像 通 过 卷 积 运算 输出 ， 可 
以 看 到 值 10 出 现在 卷 积 输出 中 稍微 不 同 的 位 置 ,但 是 使 用 最 大 池 化 ( 取 每 个 粗 线 方块 内 的 最 大 值 
后 ， 我 们 可 以 在 最 后 获得 相同 的 输出 。 稍 后 将 详细 讨论 这 些 操作 。 

最 后 ， 上 面 的 输出 被 回馈 到 一 组 全 连接 层 ， 然 后 将 全 连接 层 后 的 输出 转发 到 最 终 的 分 类 /回归 
层 ( 例 如， 句子 /图 像 分 类 ) 。 正 常情 况 下 ， 全 连接 层 包 含 了 CNN 权重 值 总 数 的 大 部 分 ， 而 卷 积 层 
只 有 一 小 部 分 权重 值 。 有 关 研 究 发 现 ， 含 有 全 连接 层 的 CNN 比 没有 全 连接 层 的 CNN 在 性 能 上 表 
现 更 好 。 这 可 能 是 因为 卷 积 层 由 于 尺寸 小 而 学 习 了 更 多 的 局 部 特征 ,而 全 连接 层 则 提供 了 关于 如 何 
将 这 些 局 部 特征 连接 在 一 起 以 产生 预期 的 最 终 输出 的 全 局 图 像 。 图 5-4 显示 了 用 于 对 图 像 进行 分 类 
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的 典型 CNN 架构 。 


由 sa 


Convolutional Pooll Convolutional 
RGB Input Layer with 5 eb Layer with 
Filters 人 10 Filters 


图 5-4 CNN 典型 架构 
从 5-4 图 中 可 以 明显 地 看 出 ，CNN 在 学 习 期 间 保 留 了 输入 的 空间 结构 。 保 留 空间 结构 将 会 使 
CNN 利用 输入 层 有 价值 的 空间 信息 并 以 较 少 的 参数 学 习 输入 。 空 间 信 息 的 价值 以 图 5-5 为 例 做 简 
要 说 明 。 


一 =Y- 
名 | 
图 5-5 将 图 像 展开 成 一 维 向 量 会 丢失 一 些 重要 的 空间 信息 
正如 我 们 所 看 到 的 那样 ， 当 猫 的 二 维 图 像 被 释放 成 为 一 维 向 量 时 ， 耳 人 条 不 再 靠近 眼睛 ,鼻子 也 
远离 眼睛 。 这 意味 着 我 们 在 展开 过 程 中 破坏 了 一 些 有 用 的 空间 信息 。 
我 们 可 以 发 现 , 卷 积 神经 网 络 只 不 过 是 各 层级 网 络 的 功能 和 形式 发 生 了 变化 而 已 , 本 质 上 依旧 
是 层级 网 络 。 结 合 图 5-4 可 知 ， 卷 积 神经 网 络 各 层级 结构 如 下 : 


@ 输入 层 / Input Layer。 

卷 积 运算 层 /Convolutional ( CONV ) Layer。 
激励 层 /Activation Function Layer。 

池 化 层 / Pooling Layer。 

全 连接 层 / Fully Connected (FC ) Layer。 


卷 积 神经 网 络 是 一 个 多 层 的 神经 网 络 ， 其 基本 运算 单元 包括 卷 积 运算 、 池 化 运算 、 全 连接 运算 
和 识别 运算 ， 如 图 5-6 所 示 。 
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卷 积 运算 - 池 化 运算 - 全 连接 运算 识别 运算 。 


一 一 一 
®t hn A 6 
堆积 核 《 亦 称 滤波 器 ) ” 池 化 核 〈 亦 称 下 采样 》， 


图 5-6 卷 积 神经 网 络 的 基本 运算 单元 结构 图 
下 面 针对 上 面 CNN 的 5 个 层级 做 进一步 的 解读 。 


5.2 输入 层 


数据 输入 层 主要 是 对 原始 数据 进行 预 处 理工 作 ， 具 体 如 下 : 


(1) 去 均值 处 理 。 我 们 将 对 输入 样本 数据 各 个 维度 进行 中 心 化 为 0 的 处 理工 作 ， 把 输入 样本 
的 中 心 移 到 坐标 系 原点 ， 以 避免 输入 数据 出 现 过 多 偏差 ,影响 训练 效果 ， 这 就 是 去 均值 处 理 。 CNN 
只 对 训练 集 进行 去 均值 处 理 ， 如 图 5-7 所 示 。 

(2) 归 一 化 处 理 。 把 所 有 数据 都 归 一 到 同样 的 取 值 范围 内 ， 即 减少 因 各 维度 数据 取 值 范围 的 
差异 而 带 来 的 干扰 。 

(3) 去 相关 (PCA) /白化 处 理 。 去 相关 就 是 用 PCA 进行 降 维 工 作 。 白 化 是 对 数据 样本 各 个 
特征 轴 上 的 幅度 归 一 化 。 去 相关 与 白化 效果 如 图 5-8 所 示 。 


original data Zero-centered data normalized data 


fi--# 


图 5-7 去 均值 与 归 一 化 效果 图 


original data decorrelated data Whitened data 


| 二 | 一 


5-8 ”去 相关 与 白化 效果 图 
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5.3 ” 卷 积 运算 层 


在 本 节 中 ， 我 们 首先 讨论 没有 步 幅 (Stride) 和 填充 (Padding) 的 卷 积 运算 ， 然 后 我 们 将 讨论 
带 步 幅 的 卷 积 运算 和 带 填 充 的 卷 积 运算 ， 最 后 会 讨论 一 些 被 称 为 转 置 卷 积 的 内 容 。 


5.3.1 标准 卷 积 


卷 积 层 操 作 是 CNN 的 核心 部 分 ， 这 一 层 有 两 个 关键 的 操作 : 
(1) 局 部 关联 。 每 一 个 神经 元 被 看 作 一 个 过 滤器 (Filter) 。 
(2) 感受 野 (Receptive Field) 滑动 (或 称 为 过 滤器 滑动 )， 过 滤器 对 局 部 数据 进行 计算 处 理 。 


对 于 大 小 为 nxn 的 输入 和 mxm 的 过 滤器 (又 称 为 滑动 窗口 或 权重 值 patch, 有 的 地 方 也 称 为 神 
经 元 ) ， 其 中 >=w。 假 设 输入 是 成 权重 值 为 不 ， 输 出 为 ， 则 在 每 个 位 置 (ij) 上 的 输出 如 式 
(5.1) 所 示 。 


hp) = Pk DEI WD XGHk-LiHD (5.1) 

这 里 ,1 二 6j《n 一 m+1。 XG 六 wd 和 hi, j) 分 别 表示 XX 下 和 互 的 第 (i, 7) 位 置 处 

的 值 。 如 会 式 所 示 ， 虽 然 输 入 大 小 为 nxxn， 但 在 这 种 情况 下 ， 输 出 大 小 将 为 (m2 - m+ 1)x(n -m+1)。 
此 外 ，m 被 称 为 过 滤器 大 小 。 下 面 让 我 们 通过 一 个 可 视 化 的 例子 进行 解读 ， 如 图 5-9 所 示 。 


: LGA :AL 4 : AAA 
: 区 < LA A 
; :7 /A : 17 
2A4ALAI 2[A4ATA1 ， p17/ 


图 5-9 过 滤器 (m) =3 和 单位 步 幅 且 没有 填充 的 卷 积 运算 示例 


这 里 以 图 5-9 中 最 左 侧 图 示 为 例 ， 过 滤器 矩阵 大 小 为 mxm， 即 3x 3 的 矩阵 〈 中 间 位 置 的 蓝 色 
矩阵) ， 对 于 输入 大 小 (nxn) 为 4x4 的 矩阵 〈 最 底部 矩阵 ) 而 言 ， 将 会 得 到 的 输出 矩阵 大 小 为 (n - m 
+ 1x(n -m+1)， 即 (4 -3+1l)x(4-3+1)=2x2 的 输出 矩阵 (最 上 面 的 和 矩阵) 。 利 用 上 面 的 公式 , 我 
们 给 出 经 过 卷 积 运算 后 输出 的 值 ， 具 体 算法 如 下 : 


2*2+3*3+2*1+3*1+]*2+4*3+]*2+5*4+3*]==57 


这 里 的 步 长 为 1， 且 输入 矩阵 没有 被 填充 ， 以 此 类 推 ， 让 过 滤器 在 输入 层 上 逐步 滑动 ， 最 终 对 
整个 输入 层 进 行 卷 积 运算 得 到 一 个 确认 的 2x2 输出 矩阵 。 图 中 的 顶部 矩形 ( 卷 积 运算 产生 的 输出 
有 时 被 称 为 特征 映射 。 
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当然 , 对 于 图 像 水 平和 垂直 边缘 检测 而 言 ,这 里 可 以 通过 水 平 过 滤器 和 垂直 过 滤器 来 实现 。 目 
前 ， 对 于 一 些 常用 的 过 滤器 也 存在 着 不 同 的 争论 ， 但 是 在 CNN 中 我 们 把 这 些 过 滤器 当成 要 学 习 的 
参数 ，CNN 训练 的 目标 就 是 去 解析 过 滤器 的 参数 。 


5.3.2” 带 步 幅 的 卷 积 


在 5.3.1 节 的 示例 中 , 我 们 只 是 将 过 滤器 移动 了 1 个 步 幅 , 其 实 我 们 也 可 以 做 更 多 步 幅 ( 步 长 ) 
的 移动 。 在 公式 (5.1) 的 基础 上 做 修改 ， 包 括 s; 和 的 步 幅 ， 我 们 可 以 得 到 带 步 幅 的 卷 积 情况 下 
的 输出 大 小 ， 如 公式 (5.2〉 所 示 。 


hep = Pi TE Woe xGG-DxsttkG-Dxsj4D 《5.2 


这 里 ，1 和 i& floor[(n—m)/si] +1Afloor[(n—m)/si]+1. 
在 这 种 情况 下 ， 随 着 sz 和 sj 的 大 小 增加 ， 其 对 应 输出 将 变 小 。 下 面 比 较 图 5-9 (stride= 1) 和 图 
5-10 (stride =2) 中 给 出 的 不 同步 幅 的 影响 。 


图 5-10 过 滤器 (m) =2 和 stride=2 且 没 有 填充 的 卷 积 运算 示例 


具体 计算 过 程 与 5.3.1 节 中 类 似 ， 这 里 就 不 再 重复 给 出 了 。 

显然 ， 由 图 5-10 可 知 ， 使 用 步 幅 〈Stride) 进行 卷 积 运算 有 助 于 降低 输入 样本 数据 的 维度 ， 与 
池 化 运算 功能 类 似 ， 所 以 有 时 也 会 使 用 带 有 步 幅 的 卷 积 代 蔡 CNN 中 的 池 化 运算 ， 因 为 它 降低 了 计 
算 的 复杂 度 。 


5.3.3” 带 填充 的 卷 积 


在 5.3.1 和 5.3.2 节 中 ， 我 们 分 别 使 用 一 个 3x3 的 过 滤器 和 一 个 2x2 的 过 滤器 对 4x4 的 输入 样 
本 数据 进行 卷 积 运算 ， 均 得 到 了 一 个 2x2 的 输出 ， 输 出 数据 大 小 为 (7 - m+ 1)x(n -m+1)。 但 是 ， 
这 样 卷 积 运算 的 缺点 也 很 明显 ,假设 输入 的 样本 是 图 像 数 据 ， 那么 卷 积 图 像 的 大 小 会 不 断 缩小 ， 且 
图 像 边界 的 元 素 只 被 对 应 的 一 个 输出 所 使 用 ， 因此， 图 像 边 缘 处 的 像素 在 输出 时 会 减少 ,显然 这 样 
的 运算 使 得 原 图 像 边缘 的 信息 丢失 很 多 。 为 了 解决 这 个 问题 ， 我 们 引入 了 填充 (Padding) 操作 ， 
即 在 图 像 卷 积 运算 之 前 沿 着 图 像 边缘 均 用 0 值 进行 填充 。 假 设 步 幅 〈Stride) 为 1， 输 出 大 小 的 如 
公式 (5.3) 所 示 。 
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hein = PEs PI WOeD) XGrk-m_DjH-m_D)) C5.3) 


这 里 : 1<i,j 人 ms; 车 ij>n 或 者 ij<0， 则 xGij = 0。 
图 5-11 给 出 了 滤波 (m) =3、 步 幅 〈s) = 1 且 填 充值 为 0 的 卷 积 运算 。 


图 5-11 具有 过 滤器 大 小 (m=3) 、 步 幅 (s=1) 和 和 零 填充 的 卷 积 运算 
这 里 过 滤器 矩阵 大 小 为 3x3, 而 填充 之 后 , 输入 和 矩阵 大 小 为 6x6, 则 输出 矩阵 大 小 变 为 (6-3+1) 
x (6-3+1) =4x4。 以 图 5-11 中 输入 层 左上 侧 为 例 ， 计 算 卷 积 之 后 对 应 的 输出 值 大 小 : 
O0x2+0x3+0x1+1x0+2x2+3x3+0x2+3x4+1x1=26 
以 此 类 推 ， 让 过 滤器 在 输入 层 上 逐步 滑动 ， 最 终 对 整个 输入 层 进行 卷 积 运算 得 到 一 个 确认 的 
4x4 输出 和 矩阵。 


5.3.4 ” 转 置 卷 积 


尽管 卷 积 运算 在 数学 方面 看 起 来 很 复杂 ， 但 它 可 以 简化 为 矩阵 乘法 ， 这 就 出 现 了 转 置 卷 积 
(Transposed Convolution) 。 简 单 理解 就 是 ， 对 于 卷 积 在 神经 网 络 结构 中 的 正 向 和 反 向 传播 做 相反 
的 运算 。 现 在 有 如 图 5-12 所 示 的 卷 积 运算 。 


全 姑 闪光 


图 5-12 单位 步 幅 在 4x<4 输入 上 3x3 滤波 且 无 填充 (n=4, m=3, s=1 且 p=0) 
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以 图 5-11 中 表示 的 卷 积 为 例 ， 通 过 线性 运算 将 输入 和 输出 从 左 到 右 、 从 上 到 下 展开 ， 则 输入 

立 宅 阵 被 平坦 化 为 16 维 向 量 ， 输 出 五 被 平坦 化 为 4 维 向 量 ， 该 向 量 随后 被 重新 整形 为 2X2 输出 
和 矩阵， 也 可 以 得 到 展开 后 卷 积 的 稀疏 矩阵 4， 如 下 所 示 。 

x(161) 


= X11 X12 X13 X14 X21 X2,2, X2,31 X2,4,..1 X41 X4,21 X43 X44 

AG416) 
1 Wiz Wi3 0 Wa wz wz 0 Wa Waz wa 0 0 0 0 0 

-|0 wa wa Ws 0 Wa wz wz3 0 wsl Waz wa 0 0 0 0 
0 0 0 0 Wi Wiz Ws 0 Wa wz wza 0 wal Waz Wass 0 
0 0 0 0 0 wa wa wa 0 Wa Wz W223 0 wal Waz Was 


HD = 4(416)XG6D 


其 中 ， 非 零 元 素 是 权重 值 wci,j) 《和 7 分 别 是 过 滤器 的 行 和 列 ) 。 

注意 ， 由 于 本 章节 的 所 有 索引 都 是 从 1 开始 ， 而 不 是 从 0 开始 ， 因 此 上 方 矩阵 是 从 左上 角 wii 
开始 到 右 下 角 ws3 结 束 。 读 者 也 可 以 查阅 一 下 Vincent Dumoulin 等 人 写 的 《Guide to Convolution 
Arithmetic for Deep Learning》, 文章 里 面 关 于 转 置 卷 积 的 论述 很 好 , 涉及 的 索引 默认 是 从 0 开始 的 。 

现在 ,通过 将 输出 H4D 重 新 整形 为 HC， 我 们 获得 了 卷 积 输出 。 现 在 让 我 们 将 这 个 结果 转 回 
到 nn 和: 

通过 将 输入 Xm 克 平 坦 化 (展开 ) 为 XD， 并 通过 从 w 创建 算 阵 4(r-m+D?m”)， 如 前 面 
所 示 ， 我 们 获得 H(m-m+D”D， 然 后 将 其 重新 整形 为 HW-m+ln-m+D。 接 下 来 ， 为 了 获得 转 置 
卷 积 ， 我 们 只 需 转换 4 就 可 以 得 到 如 下 结果 : 

8) ” (A nmt DY) Hn-m+D DT el AT mi rmt 

这 里 ，% 是 转 置 卷 积 的 结果 输出 。 

关于 转 置 卷 积 就 介绍 到 这 里 , 下 面 我 们 将 要 介绍 卷 积 神经 网 络 的 另外 一 个 重要 特性 一 一 参数 共 
享 机 制 。 


5.3.5 ”参数 共享 机 制 | 


CNN 最 大 的 特点 是 卷 积 的 权重 值 共享 结构 ， 可 以 大 幅度 减少 神经 网 络 的 参数 个 数 ， 防 止 过 拟 
合 且 同时 又 降低 了 神经 网 络 模型 的 复杂 程度 , 所 以 我 们 这 里 探讨 一 下 CNN 的 权重 值 共享 机 制 问题 。 
所 谓 权 重 值 共享 ， 就 是 针对 一 张 给 定 输入 图 像 用 一 个 过 滤器 (Filter) 去 扫描 ， 过 滤器 里 面 的 数 叫 
作 权 重 值 ， 如 果 这 张 图 像 的 每 个 位 置 是 被 同样 的 过 滤器 扫描 ， 则 对 应 权重 值 是 一 样 的 ， 也 就 可 以 说 
是 共享 的 。 举 例 说 明 ， 如 图 5-13 所 示 。 

由 图 5-13 可 知 ， 左 侧 有 一 张 1000x1000 像素 的 图 像 且 有 100 万 个 隐藏 层 神经 元 ， 那 么 如 果 是 
全 连接 的 话 〈 每 个 隐藏 层 神经 元 都 连接 到 图 像 中 的 每 一 个 像素 点 ) ， 这 里 就 有 
1000x1000x1000000=1012 个 连接 ， 那 么 权重 值 参 数 个 数 也 就 是 1012 个 ， 显 然 ， 这 时 的 参数 个 数 太 
多 ， 下 一 步 就 要 减少 参数 。 

图 像 的 空间 联系 是 局 部 的 , 与 一 个 人 通过 一 个 局 部 的 感受 野 去 感受 外 界 图 像 类 似 , 那么 每 一 个 
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神经 元 就 不 必 对 全 局 图 像 做 感受 而 只 对 局 部 图 像 区 域 做 感受 即 可 。 这 样 一 来 , 输出 层 的 每 一 个 像素 
就 只 和 输入 层 图 片 的 一 个 局 部 相连 , 显然 需要 参数 的 个 数 就 会 大 大 减少 。 当 然 , 这 些 感受 到 的 局 部 
图 像 区 域 会 在 更 高 层 被 综合 起 来 ， 从 而 得 到 全 局 的 图 像 信息 。 如 图 5-13 右 图 所 示 ， 局 部 感受 野 是 
fxf 即 10x10， 因为 隐藏 层 只 需要 与 这 个 fxfR10x10) 的 局 部 图 像 相 连接 ， 所 以 100 万 个 隐藏 层 神经 元 
就 只 有 1 亿 个 连接 ， 即 108 个 参数 ， 显 然 参数 个 数 比 原来 少 了 不 少 。 其 实 ， 这 样 的 参数 个 数 还 是 很 
多 ， 我 们 下 面 继续 降低 参数 个 数 。 

其 实 ， 图 像 还 有 另外 一 个 重要 特性 ， 那 就 是 图 像 底层 特征 与 特征 在 图 像 中 的 位 置 无 关 。 例 如 
无 论 是 图 像 中 间 的 边缘 特征 还 是 图 像 边 角 处 的 边缘 特征 ,我 们 都 可 以 用 类 似 的 特征 提取 器 进行 特征 
提取 。 对 于 主要 针对 底层 特征 的 前 几 层 网 络 ， 可 以 把 上 面 局 部 全 连接 层 中 的 每 一 个 fxf 的 小 方块 所 
对 应 的 权重 值 进行 共享 ， 以 此 进一步 减少 参数 个 数 。 换 句 话 讲 ， 输 出 层 的 每 一 个 像素 ， 是 由 输入 层 
对 应 位 置 fxf 的 局 部 图 像 与 同一 组 fxf 的 权重 值 做 内 积 ， 再 由 非 线性 单元 计算 得 来 的 。 最 终 ， 无 论 
图 像 起 初 大 小 如 何 ， 只 需要 fxf 个 参数 就 可 以 了 。 因 为 一 组 fxf 参数 只 能 得 到 一 张 特 征 图 (Feature 
Map) ， 所 以 有 几 张 特征 图 再 乘 以 几 就 可 以 得 到 最 终 的 参数 个 数 。 这 里 ， 以 图 5-13 为 例 ， 因 为 隐 
藏 层 每 一 个 神经 元 都 连接 fxKR10x10) 的 局 部 图 像 区 域 , 也 就 是 说 每 一 个 神经 元 存在 10x10=100 个 连 
接 权重 值 参 数 , 每 个 神经 元 用 的 是 同一 个 卷 积 核 去 卷 积 图 像 , 所 以 这 里 只 需要 100 个 权重 值 参数 就 
可 以 了 , 这 就 是 权重 值 共 享 。 当 然 , 假设 有 100 组 权重 值 参数 ,那么 我 们 总 共 需 要 100x100 王 10000 
个 参数 就 可 以 了 。 当 然 ， 像 人 脸 图 像 这 样 的 高 级 特征 一 般 是 与 位 置 有 关 的 。 眼 睛 和 嘴 的 位 置 不 同 ， 
在 高 层 进行 处 理 时 ,不 同位 置 需要 用 不 同 的 神经 网 络 权重 值 。 由 于 这 不 是 卷 积 运算 的 内 容 ,因此 这 
里 就 不 做 过 多 曾 述 了 。 

FULLY CONNECTED NEURAL NET LOCALLY CONNECTED NEURAL NET 


Example: 1000x1000 imoge 
1M hidden units 
Dh 10-12 paremereran 


Pier sze 10xl0 
100M Parameters 


~ Spotial correlation is local 
~ Better to put resources elsewhere! 


5-13 ”参数 共享 机 制 示例 图 


对 于 RGB 的 彩色 图 像 而 言 ,将 原来 图 像 的 宽度 x 高 度 调整 为 宽度 x 高 度 x 3 (3 是 通道 数 ) 即 可 。 
其 实 , 更 确切 一 点 , 就 权重 值 共享 而 言 , 它 只 是 在 每 一 个 过 滤器 (Filter) 上 的 每 一 个 通道 (Channel) 
是 共享 的 。 

至 此 ， 我 们 完成 了 卷 积 运算 的 讨论 ， 下 一 步 我 们 将 开启 池 化 运算 。 
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5.4 激活 函数 
5.4.1 常见 激活 函数 及 选择 


常用 的 激活 函数 如 图 5-14 所 示 。 


Pp ; Leaky ReLU 
Activation Functions 0 


Sigmoid | 
o(z)=1/(1+e™*) 


Maxout max(wTz+b, wTr+b,) 


tanh tanh(x) ELU -人 本 


ReLU max(0,x) 


图 5-14 常见 的 激活 函数 汇总 
在 对 卷 积 层 和 输出 的 结果 进行 非 线性 映射 处 理 时 ， 我 们 多 数 会 据 弃 Sigmoid、tanh 函数 ， 所 以 这 
里 选择 ReLU、Leaky ReLU、Maxout、ELU 四 种 非 线 性 激活 函数 。 


有 了 非 线性 激活 函数 ， 我 们 下 面 给 出 神经 元 处 理 的 相关 流程 (结合 图 5-15 进行 简要 说 明 ， 当 
然 这 里 都 是 非 线性 函数 ) 。 


TO 0 


output axon 
activation 
function 


图 5-15 数学 模型 中 神经 元 处 理 的 一 般 流程 
数学 模型 中 神经 元 处 理 的 一 般 流程 如 下 : 
(1) 输入 层 耻 与 对 应 权重 值 做 内 积 (Dot Product， 也 称 为 点 积 ) 处 理 。 


(2) 将 激活 函数 作用 于 上 面 的 内 积 结果 。 
(3) 激活 函数 输出 相应 的 结果 。 
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5.4.2 ”各 个 非 线性 激活 函数 对 比分 析 


1. ReLU 函数 
最 近 几 年 ， ReLU (Rectified Linear Unit) 激活 函数 在 深度 学 习 领 域 确实 比较 受 欢迎 ， 它 的 译名 
是 修正 线性 单元 , 这 个 函数 其 实 是 一 个 非 线性 操作 ， 主 要 起 源 于 传统 激活 函数 、 脑 神经 元 激活 频率 
研究 、 稀 疏 激活 性 。 
ReLU 函数 的 数学 表达 式 和 对 应 图 像 如 图 5-16 所 示 。 
f(x) = max(0,x) 


Rh 


图 5-16 ReLU 函数 示意 图 


我 们 发 现 ， 当 x<0 时 ，ReLU 是 硬 饱和 ; 当 x>0 时 ,不 存在 饱和 区 问题 。 因 此 , 激活 函数 ReLU 
可 以 在 x>0 时 保持 梯度 不 衰减 , 进而 缓解 梯度 消失 问题 。 这 就 允许 我 们 直接 以 监督 的 方式 训练 深度 
神经 网 络 ,而 无 须 依赖 无 监督 的 逐 层 预 训练 . 随 着 训练 的 不 断 深入 ,存在 部 分 输入 会 落 入 硬 饱和 区 ， 
导致 对 应 权 值 无 法 更 新 。 这 种 现象 被 称 为 “神经 元 死亡 ”。 与 sigmoid 类 似 ，ReLU 的 输出 均值 也 
大 于 0， 偏 移 现象 和 神经 元 死亡 会 共同 影响 网 络 的 收敛 性 。 

综 上 所 述 ， 我 们 对 ReLU 函数 的 优 缺 点 做 简单 的 总 结 ， 有 具体 如 下 : 


(1) 优点 

@ ”没有 饱和 区 ， 收 化 速度 比较 快 。 

@ “梯度 计算 起 来 比较 简单 ， 只 需要 一 个 阅 值 便 可 以 获得 激活 值 。 

(2) 缺点 

@ ReLU 有 时 表现 得 很 脆弱 ， 甚 至 进入 死亡 区 。 

@ ”ReLU 激活 函数 作用 后 的 输出 结果 均值 不 是 0。 

关于 梯度 爆炸 和 梯度 消失 的 理解 ,简单 来 说 , 就 是 在 反 向 传播 算法 过 程 中 ， 因 为 使 用 了 甜 阵 求 
导 链 式 法 则 , 这 里 存在 一 长 串 连 乘 , 当 连 乘 数字 在 每 一 层 均 小 于 1 时 , 就 会 引起 梯度 越 靠 前 乘 越 小 ， 
进而 梯度 消失 ;， 反之， 梯度 越 靠 前 乘 越 大 ， 进 而 梯度 发 生 爆 炸 。 所 以 ， 有 时 ReLU 的 表现 很 脆弱 。 
如 果 在 变量 更 新 很 快 的 情况 下 还 没有 找到 最 佳 值 , 那么 进入 小 于 0 的 分 段 就 会 迫使 梯度 消失 (梯度 
值 变 为 0) ， 也 就 是 这 时 部 分 输入 会 落 入 硬 饱和 区 ， 以 至 于 无 法 实现 继续 再 更 新 ， 所 以 我 们 在 使 用 
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ReLU 激活 函数 时 应 该 控制 好 学 习 率 (Learning Rate) ， 否 则 神经 元 会 有 很 大 的 概率 进入 死 区 。 这 
里 再 强调 一 次 ，ReLU 激活 函数 有 时 表现 得 很 脆弱 ， 但 从 总 体 来 看 ReLU 激活 函数 至 少 解决 了 部 分 
梯度 消失 问题 ， 本 身 还 是 有 很 好 的 应 用 价值 。 

2. ReLU 的 变 体 函 数 

针对 在 x<0 的 硬 饱和 问题 ， 我 们 对 ReLU 进行 相应 的 改进 ， 便 得 到 了 改进 后 的 激活 函数 ReLU 
变 体 一 一 PReLU (ParametricRectifier， 参 数 修正 器 ) ， 其 数学 表达 式 如 下 ， 图 像 如 图 5-17 所 示 。 


f(xi) = max(ai, xi) 


图 5-17 ReLU 变 体 函 数 示 意图 

这 里 ，wi 是 可 以 变化 且 能 进行 学 习 的 ，i 表 示 通 道 数 。 

当 @i 的 值 退化 到 0 时 ，PReLU 函数 就 退化 为 ReLU 函数 。 

当 ai 取 一 个 非常 小 的 固定 值 时 (比如 为 0.01) ，PReLU 函数 退化 为 Leaky ReLU (LReLU) 函 
数 。 在 这 种 情况 下 ,我 们 能 够 做 到 既 修 正 了 数据 分 布 ， 又 保留 了 一 些 负 轴 上 的 值 ， 进 而 保证 了 负 轴 
信息 不 会 全 部 丢失 。 

当 wi 从 高 斯 分 布 中 随机 产生 时 ，PReLU 函数 便 成 了 Randomized Leaky ReLU 函数 。 它 的 基本 
原理 就 是 ， 在 训练 过 程 中 ，wi 在 一 个 高 斯 分 布 中 随机 产生 ， 然 后 对 测试 过 程 进行 修正 。 

另外 ， 当 不 同 的 通道 使 用 不 同 的 ci 时 ， 参 数 是 很 少 的 。 而 BP 更 新 wi 时 ， 采 用 了 带动 量 的 更 新 
为 式 : 

3. Maxout 函数 


2013 年 ,Goodfellow 将 maxout 和 dropout 结合 后 在 ICML2013 上 提出 了 Maxonut 函数 , 并 宣称 
在 MNIST、CIFAR-10、CIFAR-100、SVHN 这 4 个 数据 上 都 取得 了 当时 最 好 (start-of-art) 的 识别 
率 。Maxout 函数 的 数学 表达 式 如 下 : 


fi(x) = max; EL] Zij 
或 者 


fi(x) = max(wIx,+bwix,+b2,, wix,+bn,) 
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仔细 查看 Maxout 函数 ， 不 难 发 现 Maxout 的 网 络 可 以 接近 任意 连续 函数 ， 几 乎 可 以 涵盖 所 有 
激活 函数 。 当 w2,b2,…,wn,bs 取 0 值 时 ， 便 退化 为 ReLU 函数 。 它 的 拟 合 能 力 非常 强 ， 可 以 拟 合 任意 
凸 函数 。 

最 后 ， 我 们 会 发 现 ，Maxout 既 有 ReLU 函数 的 优点 计算 简单 ， 不 会 饱和 ， 避 人 免 梯度 消失 ) 
又 规避 了 ReLU 函数 的 不 足 〈 神 经 元 死亡 ) 。 同 时 ，Maxout 函数 也 不 是 没有 缺点 ， 缺 点 就 是 增加 
了 参数 和 计算 量 。 

4. ELU 函数 


指数 线性 单元 (Exponential Linear Unit, ELU 函数 ) 是 由 Diork-Arme Clevert、 Thomas Unterthiner、 
Sepp Hochreiter 在 《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs))( 最 
新 修订 日 期 为 2016 年 2 月 22 日 ) 一 文中 提出 的 ， 其 数学 表达 式 如 下 ， 图 示 如 图 5-18 所 示 。 


f(z) = ee -1), zz 0 


I, Z>0 


图 5-18 ELU 函数 示意 图 


ELU 函数 其 实 是 整合 了 sigmoid 和 ReLU 两 个 函数 ， 也 可 以 理解 为 对 这 两 个 函数 的 一 般 归 纳 ， 
于 是 便 使 得 其 具有 左 侧 软 饱和 性 、 右 侧 无 饱和 性 的 特性 。 也 就 是 说 ，ELU 函数 的 右 侧线 性 部 分 能 
够 缓解 梯度 消失 而 左 侧 的 软 饱和 又 对 输入 的 内 容 变 化 或 噪声 更 有 和 鲁 棒 性 ， 且 ELU 的 输出 均值 近似 
为 0， 因 此 其 收敛 性 更 强 。ELU 函数 中 含有 指数 ， 所 以 其 计算 量 还 是 比较 大 的 。 

至 此 ， 我 们 已 经 将 激活 函数 介绍 完毕 ， 下 面 我 们 将 对 池 化 层 进行 解读 。 


5.5 池 化 层 
5.5.1 理解 池 化 


由 于 图 像 具 有 “静态 型 ”属性 ， 因 此 我 们 会 继续 使 用 经 过 卷 积 层 、 激 活 后 的 特征 ， 同 时 也 说 明 
一 个 图 像 区 域 的 特征 有 很 大 概率 同样 适用 于 另 一 个 区 域 。 所 以 , 我 们 在 描述 一 个 图 像 时 ， 就 可 以 对 
图 像 的 不 同 区 域 特征 进行 聚合 统计 〈 一 般 是 矩形 区 域 上 的 统计 ) 。 这 种 聚合 统计 操作 就 是 池 化 。 池 
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化 输出 的 是 邻近 区 域 的 概括 统计 量 。 池 化 有 最 大 池 化 、 平 均 池 化 、 滑 动 平 均 池 化 、 己 范 数 池 化 等 ， 
下 面 主要 介绍 常见 的 最 大 池 化 和 平均 池 化 运算 或 操作 。 


5.5.2” 池 化 作用 


(1) 不 仅 可 以 在 保留 主要 特征 的 同时 减少 参数 个 数 〈 降 低 维 度 ， 类 似 PCA) 和 计算 量 ， 还 可 
以 防止 过 拟 合 现象 的 出 现 。 

前 面 我 们 卷 积 运算 得 到 了 相关 特征 (Feature) ， 接 下 来 就 要 用 这 些 特征 去 进行 分 类 。 当 然 可 以 
使 用 所 提取 到 的 特征 去 训练 我 们 的 分 类 器 ， 但 是 这 样 会 使 得 计算 成 本 很 高 。 就 拿 softmax 分 类 器 来 
讲 ， 现 在 有 一 个 100x100 像素 的 图 像 ， 假 如 我 们 已 经 学 习 到 了 500 个 定义 在 8x8 输入 上 的 特征 ， 
则 每 一 个 特征 和 图 像 卷 积 都 会 获得 一 个 (100-8+1) x(100-8+1)=8649 维 的 卷 积 特征 , 又 因 有 500 个 特 
征 , 所 以 每 个 样 例 (example ) 就 会 得 到 一 个 (100-8+1) x(100-8+1) x500=4324500 维 的 卷 积 特征 向 量 。 
显然 , 去 学 习 一 个 拥有 超过 400 万 维特 征 向 量 的 分 类 器 难度 不 小 , 且 在 这 种 情况 下 容易 出 现 过 拟 合 
现象 。 

(2) 池 化 运算 可 以 使 得 层次 网 络 对 输入 的 图 像 中 更 小 的 变化 、 宛 余 、 变 换 维持 不 变性 。 输 入 
的 微小 宛 余 将 不 会 改变 池 化 的 输出 ， 因 为 在 局 部 区 域 中 我 们 使 用 了 最 大 化 、 平 均值 等 运算 。 

(3) 可 以 帮助 我 们 获得 图 像 最 大 程度 上 的 特征 不 变性 〈Invariance) 。 这 种 不 变性 包括 平移 
(Translation) 、 旋 转 〈(Rotation) 、 尺 度 (Scale) 方面 的 不 变性 。 (注意 ， 卷 积 是 对 输入 平移 不 
变性 ， 池 化 是 对 特征 平移 不 变性 。) 

因此 , 池 化 运算 比 没有 填充 的 卷 积 引 起 的 自然 维 数 降低 更 受 欢迎 , 因为 我 们 可 以 决定 在 哪里 减 
小 池 化 层 的 输出 大 小 ， 而 不 是 每 次 强制 它 发 生 。 实际 上 , 没有 填充 的 强制 降 维 在 很 大 程度 上 会 限制 
我 们 在 CNN 模型 中 使 用 的 层 数 。 


5.5.3 ”最 大 池 化 


最 大 池 化 〈Max Pooling) 运算 是 在 输出 层 上 选择 已 定义 内 核 中 的 最 大 元 素 作为 结果 来 输出 。 
最 大 池 化 移 位 就 是 输入 层 上 的 窗口 (过 滤器 在 输入 层 上 移动 的 投影 方块 )， 在 移 位 上 选择 最 大 的 元 
素 作为 一 个 和 输出。 下面 给 出 池 化 方程 的 定义 ， 并 以 图 5-19 所 示 为 例 。 
池 化 方程 式 : 
hi 一 max(Gx(G-DxsttuO-Dxsjta' <(G-DxsttLO-Dxsj+2) 有 (Dxsit10-Dxsjtm) 
X(G-Dxsit20 -Dxsj+1)’ Se <(G-DxsirzO-Dxsjtm 人 2(G-DxsttmuG-Dxsy+1 Pe 


XDxsitmO—Dxsj+m)) 
这 里 ， 公 式 是 包含 带 步 幅 的 池 化 运算 ， 且 


1<i<floor[ —m)/si] +11<j<floor[n —m)/s]+1 
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Max(1, 1, 5,6)=6 


图 5-19 最 大 池 化 运算 示意 图 


在 图 5-19 中 , 步 长 为 2、 过 滤器 为 2x2, 在 输入 层 4x4 矩阵 上 滑动 后 , 将 输入 层 分 成 4 部 分 (已 
标注 不 同 颜色 ) ， 在 每 个 区 域 中 选择 值 最 大 的 元 素 作为 输出 ， 就 会 得 到 右 侧 的 输出 结果 的 汇总 。 


5.5.4 平均 池 化 


平均 池 化 (Average Pooling) 的 工作 方式 类 似 于 最 大 池 化 ， 只 是 不 采用 最 大 值 ， 而 是 采用 内 核 
中 所 有 输入 的 平均 值 。 考 虑 以 下 公式 : 


二 XUHD Kotm-1) XD XG+m-D) Citm-D)’yj Xtm-1) +m-1) 
0 mxm 
Vi 1ji<n-m+1 
平均 池 运 算 如 图 5-20 所 示 。 


7p errr LAA 
LA 一 7 AN A 
LN 2 
区 多 7 pzzp7 
LA 


图 5-20 平均 池 化 示例 图 


5.6 全 连接 层 


卷 积 层 和 池 化 层 的 输出 给 出 了 输入 图 像 的 高 级 特征 , 而 全 连接 层 的 目的 是 为 了 对 这 些 特征 进行 
维度 上 的 改变 并 得 到 每 个 分 类 类 别 对 应 的 概率 值 。 稍微 正式 一 点 讲 , 全 连接 层 是 从 输入 到 输出 的 完 
全 连接 的 权重 值 集合 , 这 些 全 连接 的 权重 值 能 够 在 从 每 个 输入 连接 到 每 个 输出 时 学 习 全 局 信息 。 具 
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有 完全 连接 性 的 这 些 层 允 许 我 们 将 全 连接 层 之 前 卷 积 层 所 学 习 的 特征 从 全 局 角度 组 合 起 来 , 从 而 产 
生 有 意义 的 和 输出。 下面 给 出 全 连接 层 的 大 致 直观 图 ， 如 图 5-21 所 示 。 


28 x 28 3x24x 24 2 
3x12x12 () 
® 
| | ,号 ， 
OO 
| 名 
(@] 
| 3 
5x5 local 2x2 max- O 
receptive field pooling layer 
fully-connected 
layer 


5-21 全 连接 示例 图 


从 根本 上 讲 , 全 连接 层 就 是 高 度 提纯 的 输入 特征 ， 通 过 最 后 一 层 的 softmax 激活 函数 进行 分 类 
或 回归 。 


5.7 ”整合 各 层 并 使 用 反 向 传播 进行 训练 


如 上 所 述 ， 卷 积 和 池 化 层 充当 输入 图 像 的 特征 提取 器 ， 而 完全 连接 层 充当 分 类 器 。 
下 面 以 图 5-22 训练 ConvNet 为 例 ， 由 于 输入 图 像 是 船 ， 因 此 对 于 船 (Boat) 这 一 类 的 目标 概 
率 为 1， 对 于 其 他 三 个 类 的 目标 概率 为 0， 即 : 


@ 输入 图 像 = 船 
@ ”目标 向 量 =[0,0,1,0] 


Feature Extraction from image Classification 
图 5-22 ”训练 ConvNet 
卷 积 神经 网 络 整体 训练 过 程 如 下 : 
(1) 使 用 随机 值 初始 化 所 有 过 滤器 和 参数 /权重 值 。 


(2) 网 络 将 训练 图 像 作 为 输入 ， 经 过 前 向 传播 步骤 〈 卷 积 、ReLU 和 池 化 运算 以 及 完全 连接 
层 中 的 前 向 传播 ) ， 并 找到 每 个 类 的 输出 概率 。 
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可 以 说 上 面 船形 图 的 输出 概率 是 [0.2,0.4,0.1,0.3]。 
由 于 在 第 一 个 训练 示例 中 权重 值 是 被 随机 分 配 的 ， 因 此 输出 概率 也 是 随机 的 。 


(3) 计算 输出 层 的 总 误差 〈( 所 有 4 个 类 的 总 和 ) 。 
总 误差 = 了 % (目标 概率 - 输出 概率 ) 


(4) 利用 反 向 传播 算法 ， 根 据 网 络 中 所 有 权重 值 计 算 误差 的 梯度 ， 并 使 用 梯度 下 降 来 更 新 所 
有 过 滤器 值 /权重 值 和 参数 值 ， 以 最 大 限度 地 减少 输出 误差 。 


@ ”权重 值 的 调整 与 它们 对 总 误差 的 贡献 成 比例 。 

@” 当 再 次 输入 相同 的 图 像 时 ,输出 概率 现在 可 能 是 [0.1,0.1,0.7.0.1], 更 接近 目标 向 量 [0,0,1,0]。 

@@ ”这 意味 着 网 络 已 经 学 会 通过 调整 其 权重 值 /过 滤器 来 正确 地 对 该 具体 图 像 进行 分 类 ， 从 而 
减少 输出 误差 。 

@ ”过 滤器 数量 、 过 滤器 大 小 、 网 络 架构 等 参数 都 已 在 步骤 ( 1 ) 之 前 得 到 修复 固定 ， 并 且 在 
训练 过 程 中 不 会 发 生变 化 ， 只 更 新 过 滤器 矩阵 和 连接 权重 值 。 


(5) 对 训练 集中 的 所 有 图 像 重 复 步 又 (2) ~ (4) 。 

利用 上 述 步骤 训练 ConvNet, 实际 上 意味 着 ConvNet 的 所 有 权重 值 和 参数 已 经 过 优化 , 可 以 正 
确 分 类 来 自 训练 集 的 图 像 。 

当 一 个 新 的 (未 知 的 图 像 被 输入 到 ConvNet 中 时 ， 图 中 网 络 将 经 历 前 向 传播 步 又 并 输出 每 
个 类 别 的 概率 〈 对 于 新 图 像 ， 输 出 概率 使 用 已 经 优化 的 权重 值 来 计算 ， 以 便 正 确 分 类 所 有 之 前 的 训 
练 样 例 ) 。 如 果 我 们 的 训练 样本 足够 大 ， 网 络 将 有 机 会 对 新 图 像 有 很 好 的 泛 化 作用 ， 并 把 它们 分 到 
正确 的 类 别 中 去 。 


5.8.1 AlexNet 


1. AlexNet 简 述 


AlexNet 是 由 Hinton 和 他 的 学 生 Alex Krizhevsky 等 人 (论文 署名 是 Alex Krizhevsky、Ilya 
Sutskever 和 Geoffrey E. Hinton, 这 不 是 重点 ,读者 了 解 一 下 即 可 ) 于 2012 年 在 其 经 典 论文 (JmageNet 
Classification with Deep Convolutional Neural Nerworks》 中 提出 的 深度 卷 积 网 络 ， 可 以 看 作 是 Lenet 
的 一 种 加 深 加 宽 版 本 ， 同 时 该 论文 也 是 CNN 领域 的 经 典 之 作 。 对 于 论文 中 提出 的 AlexNet 网 络 ， 
他 们 采用 了 一 系列 新 的 技术 构件 : 成 功 应 用 了 ReLU、Dropout 和 LRN 等 策略 ,第 一 次 使 用 了 GPU 
来 进行 加 速 ， 并 且 作 者 还 开源 了 他 们 在 GPU 上 训练 网 络 的 CUDA 代码 。AlexNet 的 网 络 结构 如 图 
5-23 所 示 ， 整 个 网 络 包含 了 六 亿 三 千 万 个 连接 、 六 千 万 个 参数 和 六 十 五 万 个 神经 元 ， 包 括 5 个 卷 
积 层 〈 图 中 的 CI、C2、C3、C4、C5) ， 其 中 的 三 个 后 面 还 连接 了 最 大 池 化 层 ， 最 后 还 用 了 3 个 
全 连接 层 (图 中 的 R1I、R2、R3) 。 在 2012 年 ，AlexNet 以 绝对 的 优势 赢得 了 当年 ILSVRC 的 比赛 
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冠军 ，top-5 错误 率 降 低 至 16.4%， 相 比 于 第 二 名 26.2% 的 成 绩 有 了 巨大 的 改善 。 正 是 由 于 AlexNet 
的 出 现 ， 处 于 低谷 期 的 神经 网 络 被 再 次 推 到 世人 面前 ， 并 将 深度 学 习 ( 深 度 卷 积 网 络 ) 在 计算 及 视 
觉 领 域 置 于 统治 地 位 ， 同 时 加 速 了 深度 学 习 在 语音 识别 、 自 然 语 言 处 理 等 领域 的 拓展 应 用 。 


图 5-23 AlexNet 网 络 结构 示意 图 (在 两 个 GPU 下 进行 ) 
2. AlexNet 基本 结构 详细 解析 
在 AlexNet 中 ， 对 于 每 次 卷 积 后 的 结果 ， 我 们 都 可 以 在 图 5-23 中 看 到 。 例 如 ， 经 过 卷 积 层 C1 
后 , 原始 的 图 像 变 成 了 55x55 的 尺寸 , 一 共有 96 个 通道 ， 分 布 在 2 张 3GB 的 显卡 上 ， 所 以 图 5-23 
中 一 个 立方 体 的 尺寸 是 55x55x48 (48 是 通道 数目 ) ， 而 在 这 个 立方 体 里 面 还 有 一 个 5x5x48 的 小 
立方 体 ， 这 个 就 是 C2 卷 积 层 的 核 尺寸 ，48 是 核 的 厚度 。 这 样 我 们 就 能 看 到 每 一 层 的 卷 积 核 尺 寸 以 
及 每 一 层 卷 积 之 后 的 尺寸 了 。 


大 多 数 情况 下 ， 我 们 看 到 的 AlexNet 网 络 结构 都 是 用 图 5-23 来 表示 的 ， 但 是 实际 上 ， 输 


入 图 像 的 尺寸 不 是 224x224x3， 而 是 227x227x3 ( 其实 可 以 用 224 的 尺寸 推导 一 下 ,就 会 
发 现 边 界 填充 的 结果 是 小 数 ， 这 明显 是 不 对 的 。 


下 面 我 们 对 ALexNet 网 络 结构 进行 详细 解析 。 

(1) 第 一 层 输 入 数据 为 原始 的 227x227x3 的 图 像 ， 这 个 图 像 被 11x11x3 的 卷 积 核 进行 卷 积 运 
算 ， 卷 积 核对 原始 图 像 的 每 次 卷 积 都 生成 一 个 新 的 像素 。 卷 积 核 沿 原始 图 像 的 x 轴 方 向 和 y 轴 方 向 
移动 ， 移 动 的 步 长 是 4 个 像素 。 因 此 ， 卷 积 核 在 移动 的 过 程 中 会 生成 (227-11) 二 4+1=55 个 像素 ， 行 
和 列 的 55x55 个 像素 形成 对 原始 图 像 卷 积 之 后 的 像素 层 。 总 计 有 96 个 卷 积 核 ， 会 生成 55x55x96 
个 卷 积 后 的 像素 层 。96 个 卷 积 核 分 成 2 组 ， 每 组 48 个 卷 积 核 ， 则 对 应 生成 2 组 55x55x48 的 卷 积 
后 的 像素 层 数据 。 这 些 像 素 层 经 过 相关 处 理 后 生成 激活 像素 层 ， 尺 寸 仍 为 2 组 55x55x48 的 像素 层 
数据 。 

这 些 像素 层 经 过 池 化 运算 处 理 〈 池 化 运算 的 尺度 为 3<3， 运 算 的 步 长 为 2) ， 则 池 化 后 图 像 的 
尺寸 为 (55-3) 二 2+1=27。 即 池 化 后 像素 的 规模 为 27x27x96; 然后 经 过 归 一 化 处 理 ， 归 一 化 运算 的 尺 
度 为 5x5; 第 一 卷 积 层 运算 结束 后 形成 的 像素 层 的 规模 为 27x27x96。 分 别 对 应 96 个 卷 积 核 所 运算 
形成 。 这 96 层 像素 层 分 为 2 组， 每 组 48 个 像素 层 ， 每 组 在 一 个 独立 的 GPU 上 进行 运算 。 
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反 向 传播 时 , 每 个 卷 积 核对 应 一 个 偏差 值 , 即 第 一 层 的 96 个 卷 积 核对 应 上 层 输入 的 96 个 偏差 
值 。 

(2) 第 二 层 输入 数据 为 第 一 层 输出 的 27x27x96 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像 素 层 的 
左右 两 边 和 上 下 两 边 都 要 填充 2 个 像素 ; 27x27x96 的 像素 数据 分 成 27x27x48 的 两 组 像素 数据 , 两 
组 数据 分 别 在 两 个 不 同 的 GPU 中 进行 运算 。 每 组 像素 数据 被 5x5x48 的 卷 积 核 进行 卷 积 运算 ， 卷 
积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 的 像素 。 卷 积 核 沿 原始 图 像 的 x 轴 方 向 和 y 轴 方 向 移动 ， 
移动 的 步 长 是 1 个 像素 。 因 此 ， 卷 积 核 在 移动 的 过 程 中 会 生成 (27-5+2x2)/1+1=27 个 像素 (27 个 像 
素 减 去 5， 正 好 是 22， 加 上 上 下 、 左 右 各 填充 的 2 个 像素 ， 即 生成 26 个 像素 ， 再 加 上 被 减 去 的 5 
也 对 应 生成 一 个 像素 ) 。 行 和 列 的 27x27 个 像素 形成 对 原始 图 像 卷 积 之 后 的 像素 层 。 共 有 256 个 
5x5x48 卷 积 核 ， 这 256 个 卷 积 核 分 成 两 组 ， 每 组 针对 一 个 GPU 中 的 27x27x48 的 像素 进行 卷 积 运 
算 ， 会 生成 两 组 27x27x128 个 卷 积 后 的 像素 层 。 这 些 像素 层 经 过 相关 处 理 后 生成 激活 像素 层 ， 尺 
寸 仍 为 两 组 27x27x128 的 像素 层 。 

这 些 像 素 层 经 过 池 化 运算 的 处 理 〈 池 化 运算 的 尺度 为 3<3， 运 算 的 步 长 为 2》， 则 池 化 后 图 像 
的 尺寸 为 (57-3) 二 2+1=13, 即 池 化 后 像素 的 规模 为 2 组 13x13x128 的 像素 层 ;然后 经 过 归 一 化 处 理 ， 
归 一 化 运算 的 尺度 为 5x5; 第 二 卷 积 层 运算 结束 后 形成 的 像素 层 的 规模 为 2 组 13x13x128 的 像素 层 ， 
分 别 对 应 2 组 128 个 卷 积 核 运 算 形成 。 每 组 在 一 个 GPU 上 进行 运算 ， 即 共 256 个 卷 积 核 ， 共 2 个 
GPU 进行 运算 。 

反 向 传播 时 ， 每 个 卷 积 核对 应 一 个 偏差 值 ， 即 第 一 层 的 96 个 卷 积 核对 应 上 层 输入 的 256 个 偏 
差 值 。 

(3) 第 三 层 输入 数据 为 第 二 层 输 出 的 2 组 13x13x128 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ，2 组 像素 层 数据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 192 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x256。 因 此 ， 每 个 GPU 中 的 卷 积 核 
都 能 对 2 组 13x13x128 的 像素 层 的 所 有 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 
一 个 新 的 像素 。 卷 积 核 沿 像素 层 数据 的 x 轴 方 向 和 y 轴 方向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因 此 ， 
运算 后 的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 (13 个 像素 减 去 3， 正好 是 10， 加 上 上 下 、 左 右 各 填 
充 的 1 个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中 共 
13x13x192 个 卷 积 核 。2 个 GPU 中 共 13x13x384 个 卷 积 后 的 像素 层 。 同 样 ， 这 些 像素 层 经 过 处 理 
后 ， 生 成 激活 像素 层 ， 尺 寸 仍 为 2 组 13x13x192 像素 层 ， 共 13x13x384 个 像素 层 。 

(4) 第 四 层 输入 数据 为 第 三 层 输 出 的 2 组 13x13x192 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ，2 组 像素 层 数 据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 192 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x192。 因 此 ， 每 个 GPU 中 的 卷 积 核 
能 对 1 组 13x13x192 的 像素 层 的 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 
的 像素 。 卷 积 核 沿 像素 层 数据 的 x 轴 方 向 和 y 轴 方 向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因 此 ， 运 算 后 
的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 (13 个 像素 减 去 3， 正 好 是 10， 加 上 上 下 、 左 右 各 填充 的 1 
个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中 共 13x13x192 
个 卷 积 核 。2 个 GPU 中 共 13x13x384 个 卷 积 后 的 像素 层 。 同 样 ， 这 些 像素 层 经 过 处 理 后 生成 激活 
像素 层 ， 尺 寸 仍 为 2 组 13x13x192 像素 层 ， 共 13x13x384 个 像素 层 。 
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(5) 第 五 层 输 入 数据 为 第 四 层 输出 的 2 组 13x13x192 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ; 2 组 像素 层 数 据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 128 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x192。 因 此 ， 每 个 GPU 中 的 卷 积 核 
能 对 1 组 13x13x192 的 像素 层 的 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 
的 像素 。 卷 积 核 沿 像素 层 数据 的 x 轴 方 向 和 y 轴 方 向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因此， 运算 后 
的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 (13 个 像素 减 去 3， 正 好 是 10， 加 上 上 下 、 左 右 各 填充 的 1 
个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中共 13x13x128 
个 卷 积 核 ,2 个 GPU 中 共 13x13x256 个 卷 积 后 的 像素 层 。 这 些 像 素 层 经 过 处 理 后 生成 激活 像素 层 ， 
尺寸 仍 为 2 组 13x13x128 像素 层 ， 共 13x13x256 个 像素 层 。 

2 组 13x13x128 像素 层 分 别 在 2 个 不 同 GPU 中 进行 池 化 运算 处 理 。 池 化 运算 的 尺度 为 3x3， 
运算 的 步 长 为 2, 池 化 后 图 像 的 尺寸 为 (13-3) 二 2+1=6, 即 池 化 后 像素 的 规模 为 两 组 6x6x128 的 像素 
层 数 据 ， 共 6x6x256 个 像素 层 数据 。 

(6) 第 六 层 输 入 数据 的 尺寸 是 6x6x256， 采 用 6x6x256 尺寸 的 过 滤器 对 第 六 层 的 输入 数据 进 
行 卷 积 运算 ， 每 个 6x6x256 尺寸 的 过 滤器 对 第 六 层 的 输入 数据 进行 卷 积 运算 生成 一 个 运算 结果 ， 
通过 一 个 神经 元 输出 这 个 运算 结果 ; 共有 4096 个 6x6x256 尺寸 的 过 滤器 对 输入 数据 进行 卷 积 运算 ， 
通过 4096 个 神经 元 输出 运算 结果 ; 这 4096 个 运算 结果 通过 ReLU 激活 函数 生成 4096 个 值 ， 并 通 
过 drop 运算 后 输出 4096 个 本 层 的 输出 结果 值 。 

由 于 第 六 层 的 运算 过 程 中 采用 的 过 滤器 的 尺寸 6x6x256) 与 待 处 理 的 特征 图 (Feature Map) 的 
尺寸 6x6x256) 相 同 ， 即 过 滤器 中 的 每 个 系数 只 与 特征 图 中 的 一 个 像素 值 相 乘 ， 而 其 他 卷 积 层 中 ， 
每 个 过 滤器 的 系数 都 会 与 多 个 特征 图 中 像素 值 相 乘 因此， 将 第 六 层 称 为 全 连接 层 。 

第 五 层 输出 的 6x6x256 规模 的 像素 层 数据 与 第 六 层 的 4096 个 神经 元 进行 全 连接 ， 然 后 经 由 
relu6 进行 处 理 后 生成 4096 个 数据 ， 再 经 过 dropout6 处 理 后 输出 4096 个 数据 。 

(7) 第 七 层 输出 的 4096 个 数据 与 第 八 层 的 1000 个 神经 元 进行 全 连接 ， 经 过 训练 后 输出 被 训 
练 的 数值 。 

3. AlexNet 网 络 优势 解析 

前 面 讲 了 一 下 AlexNet 的 基本 网 络 结构 ， 大 家 肯定 会 对 其 中 的 一 些 点 产生 疑问 ， 比 如 LRN、 
ReLU、dropout， 相 信 接 触 过 深度 学 习 的 读者 都 听 说 或 者 了 解 过 这 些 。 这 里 将 详细 讲述 这 些 东 西 为 
什么 能 提高 最 终 网 络 的 性 能 。 

(1) ReLU 非 线性 

大 家 可 能 都 知道 ， 在 浅 层 的 神经 网 络 中 ， 引 入 非 线性 操作 〈 也 就 是 通常 说 的 激活 函数 ) 能 够 提 
高 神经 网 络 的 泛 化 能 力 ， 进 而 使 得 神经 网 络 更 具有 和 鲁 棒 性 。 但 是 在 深层 网 络 中 ， 如 果 我 们 选择 tanh 
函数 作为 激活 函数 ， 其 实 会 使 得 模型 的 计算 量 增加 、 训 练 速度 变 慢 。Hinton 等 在 论文 中 引入 ReLU 

(Rectified Linear Units) 来 作为 激活 函数 : 
Relu(x) = max(0, x) 


实际 上 ， 基 于 ReLU 的 深度 卷 积 网 络 比 基于 tanh 的 网 络 在 训练 上 会 提高 数 倍 。 图 5-24 给 出 了 
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一 个 基于 CIFAR-10 的 四 层 卷 积 网 络 在 tanh 和 ReLU 达到 25% 的 训练 错误 率 (Training Error) 时 的 
友 代 次 数 。 


Training error rate 


图 5-24 tanh 和 ReLU 达到 25% 的 训练 错误 率 〈Training Error) 随 着 迭代 次 数 的 变化 情况 


在 图 5-24 中 ， 实 线 、 虚 线 分 别 代表 的 是 ReLU、tanh 的 训练 错误 率 的 情况 ， 可 以 发 现 ，ReLU 
比 tanh 收敛 更 快 。 

之 所 以 会 出 现 图 5-24 中 的 现象 , 我 们 可 以 从 以 下 两 个 方面 的 原因 去 思考 : 其 一 ， 简 单 的 max 计算 
可 以 大 幅度 减少 计算 量 ， 进 而 提升 训练 速度 (论文 中 提 到 过 ) ; 其 二 ， 在 ReLU 中 ， 梯 度 是 被 直接 传 
递 的 ， 而 我 们 知道 在 深度 网 络 中 梯度 是 存在 衰减 的 ， 而 ReLU 却 能 够 最 大 限度 地 维持 梯度 ， 使 得 梯度 
衰减 的 趋势 得 以 减缓 。 此 外 , 由 于 反 向 传播 过 程 中 没有 了 梯度 换算 的 操作 , 因此 可 以 加 快 训练 的 进程 。 

(2) 局 部 响应 归 一 化 (Local Response Normalization，LRU) 

在 这 里 ， 我 们 为 了 不 让 某 一 些 核 (Kernel) 的 权重 值 (Weight) 变 得 很 大 ， 就 需要 对 不 同 的 核 
进行 归 一 化 (Normalization) 处理。 之 所 以 这 样 ， 是 因为 : 如 果 某 一 个 核 的 权重 值 变 得 很 大 ， 那 么 
它 的 权重 值 只 要 发 生 略 微 的 变化 就 会 对 网 络 性 能 产生 很 大 的 影响 , 这 一 点 可 以 结合 神经 学 中 的 侧 抑 
制 〈Lateral Inhibition ) 概念 来 理解 ， 即 活跃 的 神经 元 会 对 与 它 相 邻 的 神经 元 产生 抑制 作用 。 


要 ato 
XY 
min(N- Lit3) | 
k+ay cs 
( ( j=max(0,i—2 a ( ») 


其 中 ,这 里 的 、n、a、B 常 量 都 是 “可 调 参 数 ”， 由 最 好 的 验证 集 (Validation Set) 来 决定 。 


(3) Dropout 

这 是 一 种 正则 化 手段 ， 能 够 比较 有 效 地 防止 神经 网 络 的 过 拟 合 〈Overfitting) ， 通 过 随机 地 将 
部 分 神经 元 的 输出 置 零 来 实现 。 

相对 于 一 般 〈 如 线性 模型 ) 使 用 正则 的 方法 来 防止 模型 过 拟 合 ， 在 神经 网 络 中 Dropout 通过 修 
改 神经 网 络 本 身 的 结构 来 实现 。 在 全 连接 层 ， 将 某 些 隐藏 层 神经 元 的 输出 置 为 0， 对 于 每 个 神经 元 
输出 置 为 0 的 概率 是 0.5，Dropout 的 神经 元 不 会 对 前 向 传播 操作 造成 影响 ， 也 退出 了 反 向 传导 权 
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重 值 修正 。 这 样 在 提高 训练 效率 同时 也 防止 了 过 拟 合 现象 的 发 生 。 论文 中 梯度 神经 网 络 在 前 面 的 两 
个 全 连接 层 进行 了 Dropout， 有 效 地 阻止 了 过 拟 合 现 象 。 
(4) 数据 扩充 (Data Augmentation) 

在 深度 学 习 中 , 当 数据 量 不 够 大 的 时 候 , 采取 的 方法 之 一 便 是 数据 扩充 (其 他 还 有 Regularization、 
Dropout 等 ) : 通过 平移 、 翻 转 、 加 噪声 等 方法 从 已 有 数据 中 创造 出 一 批 “ 新 ”的 数据 。 通 过 数据 
扩充 ， 我 们 可 以 防止 模型 出 现 过 拟 合 现象 ， 进 而 提升 模型 的 性 能 。 在 Hinton 和 Alex Krizhevsky 的 
论文 中 ， 是 从 256x256 中 随机 提出 227x227 的 patches (论文 中 是 224x224) ， 还 有 就 是 通过 PCA 
来 扩充 数据 集 。 这 样 就 很 有 效 地 扩充 了 数据 集 ， 其 实 还 有 更 多 的 方法 ， 可 以 根据 我 们 的 业务 场景 去 
选择 使 用 ， 比 如 进行 基本 的 图 像 转换 〈 如 增加 /减少 亮度 、 采 用 一 些 滤 光 算法 等 ) ， 这 是 一 种 特别 
有 效 的 手段 ， 尤 其 是 当 数 据 量 不 够 大 的 时 候 。 


5.8.2 VGGNet 
1. VGGNet 简 述 


VGGNet 是 于 2014 年 由 牛津 大 学 计算 机 视觉 组 (Visual Geometry Group) 和 Google DeepMind 
公司 研究 员 一 起 研发 的 新 型 深度 卷 积 神经 网 络 。VGGNet 探索 了 卷 积 神经 网 络 的 深度 与 其 性 能 之 
间 的 关系 ， 通 过 反复 堆 登 3x3 的 小 型 卷 积 核 和 2x2 的 最 大 池 化 层 ，VGGNet 成 功 地 构筑 了 16~19 
层 深 的 卷 积 神经 网 络 。VGGNet 证 明了 增加 网 络 的 深度 能 够 在 一 定 程度 上 影响 网 络 最 终 的 性 能 ， 
相 比 之 前 的 网 络 结构 ， 使 错误 率 大 幅 下 降 ， 并 取得 了 ILSVRC2014 比赛 分 类 项 目的 第 二 名 (第 一 
名 是 GoogLeNet， 也 是 同年 提出 的 ) 和 定位 项 目的 第 一 名 。 同 时 VGGNet 的 拓展 性 很 强 ， 迁 移 到 
其 他 图 片 数据 上 的 泛 化 性 也 非常 好 。VGGNet 的 结构 非常 简洁 ， 整 个 网 络 都 使 用 了 同样 大 小 的 卷 
积 核 尺 寸 (3x3 ) 和 最 大 池 化 尺寸 (2x2) 。 目前, VGGNet 依然 经 常 被 用 来 提取 图 像 特征 。VGGNet 
训练 后 的 模型 参数 在 其 官方 网 站 已 经 开源 了 , 可 用 来 在 特定 领域 的 图 像 分 类 任务 上 进行 再 训练 ( 相 
当 于 提供 了 非常 好 的 初始 化 权重 值 ) ， 因 此 被 广泛 采用 。 


2. VGGNet 结构 详解 


在 VGGNet 论文 《Very Deep Convolutional Nerworks for Large-Scale JImage Recosmifion》 (基于 
深层 卷 积 网 络 的 大 规模 图 像 识别 ) 中 ， 作 者 全 部 使 用 3x3 的 卷 积 核 和 2x2 的 池 化 核 ， 借 助 不 断 加 
深 的 网 络 结构 来 提高 模型 性 能 。 图 5-25 给 出 了 VGGNet 中 各 级 别 的 网 络 结构 示意 图 。 论 文 作者 分 
别 使 用 了 A、A-LRN、B、C、D、E 这 6 种 网 络 结构 进行 测试 ， 这 6 种 网 络 结构 均 相似 ， 都 是 由 5 
层 卷 积 层 、3 层 全 连接 层 组 成 ， 其 中 的 区 别 在 于 每 个 卷 积 层 的 子 层 数量 不 同 ， 从 A 至 EE 依次 增加 

( 子 层 数量 从 1 到 4) ， 总 的 网 络 深度 从 11 层 到 19 层 〈 添 加 的 层 以 粗 体 显示 ) ， 图 中 的 卷 积 层 参 
数 表示 为 “conv 感受 野 大 小 -通道 数 ”， 例 如 con3-128， 表 示 使 用 3x3 的 卷 积 核 ， 通 道 数 为 128。 
为 了 简洁 起 见 ， 在 表格 中 不 显示 ReLU 激活 功能 。 
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VGG16 VGG19 


conv3-312 -31. conv3-312 
comv3-512 conv3-512 
convl-512 


图 5-25 VGGNet 各 级 别 的 网 络 参数 结构 示意 图 


图 5-26 给 出 了 每 一 级 别 的 参数 个 数 ， 从 第 11 层 的 网 络 一 直到 第 19 层 的 网 络 都 有 详尽 的 性 能 
测试 。 虽然 从 A 到 了 每 一 级 网 络 都 逐渐 加 深 ， 但 是 网 络 的 参数 个 数 并 没有 增加 很 多 ， 这 是 因为 参 
数 个 数 大 部 分 都 消耗 在 最 后 3 个 全 连接 层 上 了 。 前 面 的 卷 积 部 分 虽然 很 深 , 但 是 消失 的 参数 个 数 并 
不 大 ， 而 训练 比较 耗 时 的 部 分 仍然 是 卷 积 部 分 (该 部 分 计算 量 较 大 ) 。 这 其 中 的 网 络 结构 D 和 网 
络 结构 了 就 是 我 们 常 说 的 VGG16 和 VGG19。 


图 5-26 VGGNet 各 级 别 网 络 参数 个 数 ( 单 位 ， 百 万 ) 


接着 , 我 们 以 VGG16 (网 络 结构 D ) 为 例 介绍 其 各 层 的 处 理 过 程 ， 见 图 5-27, A、A-LRN、 B、 
C、E 等 其 他 网 络 结构 的 处 理 过 程 与 网 络 结构 D 类 似 。 其 处 理 过 程 如 下 (请 对 比 图 5-25、 图 5-26 
和 图 5-27 的 数字 变化 ， 有 助 于 理解 VGG16 的 处 理 过程 ) : 

(1) 输入 224x224x3 的 图 片 ， 经 64 个 3x3 的 卷 积 核 做 两 次 卷 积 tReLU， 卷 积 后 的 尺寸 变 为 
224x224x64。 

(2) 做 最 大 池 化 (Max Pooling) ， 池 化 单元 尺寸 为 2x2 效果 为 图 像 尺寸 减 半 ) ， 池 化 后 的 
尺寸 变 为 112x112x64。 

(3) 经 128 个 3x3 的 卷 积 核 做 两 次 卷 积 FTReLU， 尺 寸 变 为 112x112x128。 

(4) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 56x56x128。 
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(5) 经 256 个 3x3 的 卷 积 核 做 三 次 卷 积 FTReLU， 尺 寸 变 为 56x56x256。 
(6) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 28x28x256。 

(7) 经 512 个 3x3 的 卷 积 核 做 三 次 卷 积 +ReLU， 尺 寸 变 为 28x28x512。 
(8) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 14x14x512。 

(9) 经 512 个 3x3 的 卷 积 核 做 三 次 卷 积 +ReLU， 尺 寸 变 为 14x14x512。 
(10) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 7x7x512。 

(11) 与 两 层 1x1x4096、 一 层 1x1x1000 进行 全 连接 +ReLU ( 共 三 层 ) 。 
(12) 通过 softmax 输出 1000 个 预测 结果 。 


~ 


输入 片 一 一 一 卷 积 层 一 一 一 -一 全 连接 二 输出 
图 5-27 VGG16 (网 络 结构 D) 各 层 处 理 过 程 示意 图 

图 5-28 给 出 了 VGGNet 使 用 Multi-Scale 训练 时 得 到 的 结果 , 可 以 发 现 网 络 结构 D 和 下 均 能 够 
达到 7.5% 的 错误 率 。 在 对 比 VGGNet 各 级 别 网 络 后 得 出 以 下 3 个 观点 : 

(1) LRN 层 作 用 不 大 。 

(2) 越 深 层 的 网 络 效果 越 佳 。 

(3) 2x2 的 卷 积 也 是 有 效 的 ， 但 没有 3x3 的 卷 积 好 ， 即 大 一 些 的 卷 积 核能 够 学 习 更 大 的 空间 
特征 。 


ConvNet config. (Table[J smallest image side top-1 val. error (%) | top-5 val. error (%) 
train (5) test (O) 

B 256 | 224,256,288 28.2 9.6 
| 224,256,288 pid 9.2 
C 352,384,416 27.8 9.2 
256,384,512 8.2 
| 224,256,288 8.6 
D 352,384,416 8.6 
6,384,51 .8 ” 
256 | 224,256,288 26.9 8.7 
E 384 | 352,384,416 26.7 8.6 
[256; 512] | 256,384,512 24.8 J 


图 5-28 VGGNet 各 级 别 在 使 用 Multi-Scale 训练 时 的 top-5 错误 率 
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5.8.3 Google Inception Net 


Google Inception Net( 有 时 也 称 GoogLeNet) 和 VGGNet 是 2014 年 ImageNet 挑 战 赛 (ILSVRC14) 
的 翘楚 ， 分 别 获得 了 第 一 名 和 第 二 名 ， 这 两 类 模型 结构 的 共同 特点 是 神经 网 络 层 次 更 深 了 。 其 中 
VGGNet 继承 了 LeNet 以 及 AlexNet 的 一 些 框架 结构 , 而 GoogLeNet 则 做 了 更 加 大 胆 的 网 络 结构 党 
试 。2014 年 这 届 比 赛 中 的 Inception Net 一 般 被 称 为 mception V1， 其 中 一 个 很 重要 的 特点 是 控制 了 
计算 量 和 参数 量 的 同时 取得 了 非常 出 色 的 分 类 性 能 : top-5 错误 率 为 6.67%, 不 到 AlexNet 的 一 半 。 
Google Inception Net 其 实 是 一 个 大 的 家 族 ， 成 员 有 : 


(1) 2014 年 9 月 ,论文 《Going Deeper with Convolutions》 提 出 的 Inception V1 (top-5 错误 率 
为 6.67%) 。 
(2) 2015 年 2 月, 论文 《Batch Normalization: Accelerating Deep Nerwork Training by Reducing 
Jnternal Covariate Shift?》 提 出 的 Inception V2 (top-5 错误 率 为 4.8%) 。 
(3) 2015 年 12 月， 论文 《Rethinking the Inception Architecture for Computer Vision》 提 出 的 
Inception V3 (top-5 错误 率 3.5%) 。 
(4)2016 年 2 月 ,论文 《Inception-v4, Inception-ResNet and the Impact of Residual Connections on 
Learning》 提 出 的 Inception V4 (top-5 错误 率 3.08%) 。 
1. Inception V1 
Inception V1 虽然 深度 只 有 22 层 ， 但 大 小 却 比 AlexNet 和 VGGNet 小 很 多 ，GoogleNet 参数 为 
500 万 个 ， 仅 为 AlexNet 参数 个 数 的 1/12 倍 ， 是 VGGNet 参数 个 数 的 14， 所 以 在 内 存 或 计算 资源 
有 限 的 时 候 ，GoogleNet 是 比较 好 的 选择 ; 从 模型 的 效果 来 看 , GoogleNet 的 性 能 也 是 更 佳 的 选择 。 
Inception V1 模型 的 参数 量 少 但 效果 好 的 原因 除了 模型 层 数 更 深 、 表 达能 力 更 强 外 ， 还 有 如 下 两 方 
面 的 原因 : 


(1) 放弃 了 最 后 的 全 连接 层 ， 代 之 以 全 局 平均 池 化 层 (将 图 片 尺寸 变 为 1x1) 。 由 于 全 连接 
层 几 乎 占据 了 AlexNet 或 VGGNet 中 90% 的 参数 量 ， 且 这 会 引发 过 拟 合 现象 。 采 用 全 局 平均 池 化 
层 代替 全 连接 层 的 做 法 借鉴 了 Network In Network (NIN) 论文 的 思想 ， 这 样 模型 训练 起 来 速度 更 
快 且 也 减轻 了 过 拟 合 的 压力 。 

(2) Inception V1 中 精心 设计 的 Inception 模块 (Inception Module) 提升 了 参数 的 利用 效率 ， 
具体 的 网 络 结构 见 图 5-29。 这 一 部 分 借鉴 了 NIN 的 思想 , 可 以 理解 为 Inception 模块 本 身 就 如 同 大 
网 络 中 的 一 个 小 网 络 ， 其 结构 可 以 反复 县 加 在 一 起 形成 大 网 络 。 但 Inception V1 比 NIN 更 具有 优 
势 的 地 方 是 它 增加 了 分 支 网 络 ，NIN 则 主要 是 级 联 的 卷 积 层 和 MLPConv 层 。 
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图 5-29 Inception V1 网 络 结构 示意 图 (图 片 来 自 论文 《Going Deeper with Convolutions》) 
接 下 来 ， 我 们 给 出 Inception V1 模型 的 特点 ， 具 体 如 下 : 


(1) 卷 积 层 共 有 的 一 个 功能 ， 可 以 实现 通道 方向 的 降 维 和 增 维 ， 至 于 是 降 还 是 增 ， 取 决 于 卷 
积 层 的 通道 数 (过 滤器 个 数 ) ， 在 Inception V1 中 1x1 卷 积 用 于 降 维 ,减少 权重 值 大 小 和 特征 图 维 
度 。 

(2) 1x1 卷 积 特 有 的 功能 ， 由 于 1x1 卷 积 只 有 一 个 参数 ， 相 当 于 对 原始 特征 图 做 了 一 个 尺度 
变换 〈scale) 操作 ， 并 且 这 个 尺度 变换 还 是 训练 学 出 来 的 ， 无 疑 会 对 识别 精度 有 提升 。 

(3) 增加 了 网 络 的 深度 。 

(4) 增加 了 网 络 的 宽度 。 

(5) 同时 使 用 了 1x1、3x3、5x5 的 卷 积 ， 增 加 了 网 络 对 尺度 的 适应 性 。 


2. Inception V2 

Inception V2 学 习 了 VGGNet， 使 用 两 个 3x3 的 卷 积 取 代 了 5x5 的 大 卷 积 〈 用 于 降低 参数 量 且 
减少 过 拟 合 ) ， 并 提出 了 著名 的 Batch Normalization (BN) 方法 ， 其 网 络 结构 如 图 5-30 所 示 。BN 
是 一 个 非常 有 效 的 正则 化 方法 , 可 以 让 大 型 卷 积 网 络 的 训练 速度 加 快 很 多 倍 , 同时 收敛 后 的 分 类 准 
确 率 也 可 以 得 到 很 大 的 提升 。Inception V2 的 优势 在 于 以 下 两 点 : 


Fikter Concat 


Inception V1 Inception V2 
5-30 Inception V1 改进 到 V2 的 网 络 结构 示意 图 
(1) 加 入 了 BN 层 ， 减 少 了 内 部 协 方差 偏 移 (InternalCovariate Shift， 内 部 神经 元 的 数据 分 布 
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发 生变 化 ) ， 使 每 一 层 的 输出 都 规范 化 到 一 个 N(0，1) 的 高 斯 分 布 〈 即 正 态 分 布 ) ， 从 而 增加 了 模 
型 的 鲁 棒 性 ， 能 以 更 大 的 学 习 速 率 训练 ,收敛 更 快 ， 初 始 化 操作 更 加 随意 ， 同 时 作为 一 种 正则 化 技 
术 ， 可 以 减少 dropout 层 的 使 用 。 
(2) 用 2 个 连续 的 3x3 conv 蔡 代 Inception 模块 中 的 Sx5， 从 而 实现 网 络 深度 的 增加 ， 网 络 整 
体 深 度 增 加 了 9 层 ， 缺 点 就 是 增加 了 25% 的 权重 值 和 30% 的 计算 量 。 
3. Inception V3 
Inception V3 网 络 主要 是 在 V2 的 基础 上 提出 了 卷 积分 解 Factorization) ， 如 图 5-31 所 示 。 其 
主要 特点 有 以 下 两 点 : 
(1) 将 7x7 分 解 成 两 个 一 维 的 卷 积 (1x7,7x1) ，3x3 也 是 一 样 〈1x3,3x1) ， 这 样 的 好 处 是 
既 可 以 加 速 计 算 〈 多 余 的 计算 能 力 可 以 用 来 增加 网 络 深度 ) ， 又 可 以 将 1 个 卷 积分 解 成 2 个 卷 积 ， 
使 得 网 络 深度 进一步 增加 , 从 而 增加 了 网 络 的 非 线性 ,更 加 精细 地 设计 了 35x35/17x17/8x8 的 模块 。 
(2) 增加 网 络 宽度 ， 网 络 输入 从 224x224 变 为 了 299x299。 


5-31 将 一 个 3x3 卷 积 分 解 成 1*3 卷 积 和 3x1 卷 积 


4. Inception V4 

Inception V4 相 比 于 V3 主要 是 结合 了 微软 的 ResNet， 得 到 了 Inception-ResNet-v1l 、 
Inception-ResNet-v2、Inception-v4 网 络 。 关 于 ResNet 我 们 将 在 5.8.4 节 单独 说 明 。 

ResNet 的 残 差 结 构 如 图 5-32 所 示 。 


Relu activation 


Relu activation 


图 5-32 ”ResNet 的 残 差 结构 示意 图 
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Inception 与 ResNet 结合 后 的 网 络 结构 如 图 5-33 所 示 。 


Relu activation 
1x1 Conv 
(256 Linear) 
3x3 Conv 
(32) 
1x1 Conv f 
Lt 3x3 Conv 3x3 Conv 
(32) (32) 
1 1 
1x1 Conv 1x1 Conv 
(32) (32) 
人 
| 
Relu activation 


图 5-33 ”Inception 与 ResNet 结合 后 的 网 络 结构 示意 图 
现在 ， 我 们 可 以 看 一 下 Inception V4 的 优点 ， 具 体 如 下 : 


(1) 将 Inception 模块 和 ResNet 结合 ， 提 出 了 Inception-ResNet-v1 、Inception-ResNet-v2， 使 
得 训练 加 速 ， 收 敛 更 快 ， 精 度 更 高 。 

(2) 设计 了 更 深 的 Inception-v4 版 本 ， 效 果 和 Inception-ResNet-v2 相当 。 

(3) 网 络 输入 大 小 和 V3 一 样 ， 还 是 299x299。 


5.8.4 ResNet 网 络 


1. 简 述 

ResNet(Residual Neural Network, 残 差 神经 网 络 ) 是 由 微软 研究 院 的 Kaiming He、Xiangyu Zhang、 
Shaoqing Ren 和 Jian Sun 四 名 华人 于 2015 年 在 其 论文 (Deep Residual Learning for Image Recognition》 
中 提出 的 ， 通 过 使 用 ResNet Unit 成 功 训练 出 了 152 层 深 的 神经 网 络 ， 并 在 ISVRC 2015 比赛 中 取 
得 了 冠军 ， 在 top5 上 的 错误 率 为 3.57%， 同 时 参数 个 数 比 VGGNet 低 ， 效 果 却 非常 突出 。ResNet 
的 结构 可 以 极 快 地 加 速 超 深 神经 网 络 的 训练 , 模型 准确 率 的 提升 也 非常 显著 。 正 是 因为 ResNet“ 简 
单 与 实用 ”并 存 的 魅力 ， 所 以 后 来 很 多 方法 都 是 建立 在 ResNet50 或 者 ResNet101 基础 上 完成 的 ， 
检测 、 分 割 、 识 别 等 领域 都 纷纷 使 用 了 ResNet 网 络 ，Alpha Zero 也 使 用 了 ResNet， 可 见 ResNet 
确实 很 受 欢迎 。 

2. ResNet 网 络 结构 


ResNet 主要 借鉴 了 高 速 路 网 络 〈Highway Network) 的 思想 ， 即 允许 原始 输入 信息 直接 传输 到 
后 面 的 网 络 层 中 (我 们 可 以 理解 为 ， 网 络 中 增加 了 捷径 连接 或 者 直 连 通道 或 者 说 跨 层 连 接 等 ) ,但 
实际 上 ResNet 对 高 速 路 神经 网 络 进行 了 改进 ( 残 差 项 中 原本 是 带 有 权重 值 的 , 而 ResNet 则 采用 恒 
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等 映射 代替 之 ) 。 图 5-34 给 出 了 ResNet 网 络 两 层 残 差 学 习 单元 的 示意 图 。 
x 


weight layer 


F(x) identity 
x 

H(x)= F(x)+x | shortcut connections 
"EU (捷径 连接 ) 


图 5-34 ResNet 网 络 两 层 残 差 学 习 单元 


我 们 知道 , 在 传统 的 卷 积 网 络 或 者 全 连接 网 络 当 中 ,信息 传递 时 或 多 或 少 会 存在 信息 丢失 、 损 
耗 等 现实 问题 , 甚至 引起 梯度 消失 或 者 梯度 爆炸 的 严重 问题 , 导致 我 们 无 法 对 深度 神经 网 络 进行 正 
常 训练 。 现 在 我 们 认识 到 ，ResNet 可 以 通过 其 捷径 连接 将 输入 信息 直接 传 到 输出 端 ， 最 大 程度 上 
保证 了 信息 的 完整 性 , 整个 神经 网 络 只 需要 学 习 输 入 端 和 输出 端 存 在 差异 的 部 分 即 可 ,从 而 大 大 降 


低 了 模型 的 学 习 难 度 。 


论文 《Deep Residual Learning for JImage Recognition》 中 提出 了 ResNet 模块 的 两 种 结构 (如 图 
5-35 所 示 ) ， 其 实 真正 在 使 用 的 ResNet 模块 并 不 是 这 么 单一 。 这 两 种 结构 分 别针 对 ResNet34 ( 左 
图 浅 层 网 络 ) 和 ResNet50/101/152( 右 图 深层 网 络 ) ， 整 个 结构 被 称 为 一 个 “building block”。 其 
中 右 图 又 被 称 为 “bottleneck design”， 目 的 就 是 为 了 降低 参数 的 数目 。 我 们 面 对 的 网 络 层 数 很 多 
时 ， 在 神经 网 络 中 靠近 输出 端的 维 数 就 会 很 大 ， 此 时 如 果 选 择 左 侧 浅 层 网 络 则 会 导致 计算 量 极 大 ， 
而 选择 右 侧 深层 网 络 结构 进行 计算 就 会 好 很 多 , 这 里 将 会 先 用 一 个 1x1 卷 积 进行 降 维 , 然后 使 用 一 


个 3x3 卷 积 层 ， 最 后 再 使 用 一 个 1x1 卷 积 层 恢复 到 之 前 的 维度 。 


图 5-35 二 层 和 三 层 的 ResNet 学 习 模块 


5.9 利用 CNN 对 MNIST 数据 集 进行 图 片 分 类 


本 节 我 们 分 析 一 个 在 讲解 卷 积 神经 网 络 时 经 常 使 用 到 的 案例 ， 即 利用 CNN 对 MNIST 数据 集 


进行 图 片 分 类 。 


5.9.1 数据 样本 


数据 样本 还 是 计算 机 视觉 社区 中 众所周知 的 数据 集 : MNIST 数据 集 。 MNIST 数据 集 是 从 0 
到 9 的 手写 数字 的 标记 图 像 的 数据 库 。 数 据 集 包 含 三 个 不 同 的 子 数据 集 : 训练 、 验 证 和 测试 集 。 下 
面 我 们 将 在 训练 集 上 做 训练 ， 再 从 测试 集中 随机 选取 一 些 正确 和 错误 分 类 的 样本 ， 以 评估 CNN 的 


学 习 能 力 。 
5.9.2 实现 CNN 


本 部 分 的 完整 代码 位 于 ch5 文件 夹 的 5_cnn image_classification mnistipynb 中 。 
首先 ， 我 们 将 定义 TensorFlow 占 位 符 ， 用 于 为 输入 图像》 和 输出 标签》 服务， 然后 定义 
一 个 全 局 步 数 ， 它 被 用 于 计算 衰减 的 学 习 速 率 : 


# 输入 图像 》 和 输出 (标签 ) 占 位 符 

tf inputs = tf.placeholder (shape=[batch size, image size, image size, 

n_ channels],dtype=tf.float32,name='tf mnist images') 

tf labels = tf.placeholder (shape=[batch size, n classes], 
dtype=tf.float32,name='tf mnist labels') 


# 用 于 计算 衰减 学 习 速率 的 全 局 步 数 
global step = tf.Variable(0,trainable=False) 


接 下 来 ， 我 们 将 定义 模型 和 其 他 变量 ， 它 们 是 卷 积 权重 值 和 偏差 以 及 完全 连接 的 权重 值 。 


# 初始 化 各 个 变量 

layer weights = {} 

layer biases = {} 

for layer id in cnn layer ids: 

if "Pool' not in layer id: 
layer weights[layer id] =tf.Variable(initial Value= 

tf.random normal (shape=layer hyperparameters[layer id]['weight shape'],stddev= 
0.02,dtype=tf.float32),name=layer id+' weights') 


layer biases[layer id] = tf.Variable(initial value=tf.random normal 
(shape=[layer hyperparameters[layer id]['weight shape'] [-1]], 
stddev=0.01,dtype=tf.float32), name=layer id+' bias') 


下 一 步 定 义 logit 计算 。Logits 是 应 用 softmax 激活 之 前 输出 层 的 值 。 为 此 ， 我 们 将 会 遍历 每 一 
层 。 
对 于 每 个 卷 积 层 ， 将 使 用 以 下 方法 对 输入 进行 卷 积 运算 : 


h = tf.nn.conv2d(h, layer weights[layer id],layer hyperparameters[layer id] 
['stride'],1layer hyperparameters[layer id]['padding']) + layer biases[layer id] 
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这 里 ， 对 于 第 一 个 卷 积 ， 输 入 h 到 人 nn.conv2d 将 被 蔡 换 为 t inputs。 此 外 ，ttnn.conv2d(input, 
filter, strides， padding) 按 以 下 顺序 采用 有 关 参 数值 。 
我 们 还 将 调用 非 线性 激活 函数 ReLU: 


h = tf.nn.relu(h) 


然后 ， 对 于 每 个 池 化 层 ， 使 用 以 下 方法 对 输入 进行 子 采 样 : 


h = tf.nn.max pool(h, layer hyperparameters[layer id]['kernel shape'], 
layer hyperparameters[layer id]['stride'],layer hyperparameters[layer id] 
['padding']) 


ttnn.max_pool (input，ksize，strides，padding〉 函 数 按 顺 序 采用 以 下 参数 : 


@ input: 用 于 子 采 样 ， 形 式 为 [batch size, input height input width, input depth]。 

@ ksize: 最 大 池 化 运算 的 每 个 维度 上 的 内 核 大 小 , 形式 为 [batch kernel size, height kernel size， 
width kernel size, depth kernel size]。 

@ strides: 输入 每 个 维度 的 步 幅 ， 形 式 为 [batch stride, height stride, width stride, depth stride]。 

@ padding: 可 以 是 'SAME' 或 "VALID'. 

接 下 来 ， 对 于 第 一 个 完全 连接 的 层 ， 我 们 重 塑 输出 : 


h 


tf.reshape (h, [batch size,-1]) 
然后 我 们 将 执行 权重 值 乘法 和 偏差 加 法 ， 进 行 非 线 性 激活 : 


h tf.matmul (h, layer weights[layer id]) + layer biases[layer id] 
h = tf.nn.relul(h) 


这 时 计算 logits: 
h = tf.matmul (h, layer weights[layer id]) + layer biases[layer id] 


我 们 将 h 的 最 后 一 个 值 〈 最 后 一 层 的 输出 ) 分 配给 tf logits: 


tf logits = h 


接 下 来 ， 我 们 将 定义 softmax 交叉 炉 损 失 ， 这 是 有 监督 分 类 任务 的 常用 损失 函数 : 


tf _ loss = tf.nn.softmax cross entropy with logits v2(logits=tf logits, 
labels=tf labels) 


我 们 还 需要 定义 一 个 学 习 率 ， 每 当 验证 准确 度 没有 增加 预定 数量 的 epoch (一 个 epoch 是 指 遍 
历 一 遍 整个 数据 集 ， 即 训练 一 遍 ) 时， 我 们 将 学 习 率 降低 0.5 倍 。 这 被 称 为 学 习 率 衰减 : 


tf _ learning rate =tf.train.exponential decay(learning rate=0.001, 


global step=global step,decay rate=0.5,decay steps=1,staircase=True) 


接着 ， 我 们 将 使 用 RMSPropOptimizer 优化 器 定义 损失 最 小 化 ， 有 人 发 现 它 优 于 传统 的 随机 梯 
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度 下 降 (SGD) ， 尤 其 是 在 计算 机 视觉 应 用 中 : 


tf loss minimize = tf.train.RMSPropOptimizer (learning rate=tf learning rate, 


momentum=0.9) .minimize (tf loss) 


最 后 , 通过 比较 预测 的 分 类 标签 和 实际 分 类 标签 来 计算 预测 的 准确 率 , 我 们 将 定义 以 下 预测 计 
算 函 数 : 


tf predictions = tf.nn.softmax(tf logits) 


目前 , 我 们 已 经 完成 了 第 一 个 CNN 功能 的 创建 工作 。 熟悉 了 使 用 相关 函数 来 实现 CNN 结构 、 
定义 损失 、 最 大 限度 地 减少 损失 并 将 预测 变 为 未 可 见 数 据 。 我 们 使 用 简单 的 CNN 来 查看 它 是 否 可 
以 实现 对 手写 图 像 进行 分 类 的 学 习 。 此 外 ， 通 过 CNN， 我 们 能 够 达到 98% 以 上 的 准确 度 。 接 下 来 
我 们 将 分 析 CNN 产生 的 一 些 结果 ， 将 看 到 为 什么 CNN 无 法 正确 识别 某 些 图 像 。 


5.9.3 分 析 CNN 产生 的 预测 结果 


在 这 里 ， 我 们 可 以 从 测试 集中 随机 选取 一 些 正确 和 错误 分 类 的 样本 ， 以 评估 CNN 的 学 习 能 力 
( 见 图 5-36) 。 我 们 可 以 看 到 ， 对 于 正确 分 类 的 实例 ，CNN 对 输出 非常 有 信心 ， 这 可 以 被 视 为 学 
习 算 法 的 良好 属性 。 然 而 ， 当 我 们 评估 错误 分 类 的 例子 时 ， 我 们 可 以 看 到 它们 实际 上 是 困难 的 ， 甚 
至 人 类 也 可 能 会 弄 错 它们 〈 例 如 ， 第 二 行 从 左 侧 起 第 3 个 图 像 》， 这 么 来 看 ， 面 对 不 正确 的 样本 ， 
CNN 通常 不 像 分 类 正确 的 样本 那么 自信 。 此 外 ， 尽 管 出 现 这 些 不 足 ， 但 正确 的 标签 通常 不 会 被 完 
全 忽略 ， 并 且 根 据 预 测 值 给 出 一 些 识别 ， 例 如 ， 图 中 第 一 行 的 图 像 ， 正 确 的 标签 基本 不 会 被 弄 错 。 


正确 分 类 的 样 太 


正 克 分 类 本 的 softmax 划 双 
(a) MNIST 正确 分 类 实例 
全 分 类 的 村 太 
四 | 


鲁 误 分 类 样本 的 Softzax 筷 测 


(b) MNIST 错误 分 类 实例 
5-36 MNIST 正确 分 类 (a) 和 错误 分 类 (b) 的 实例 
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5.10 利用 CNN 进行 句子 分 类 


虽然 CNN 主要 用 于 计算 机 视觉 任务 , 但 在 NLP 领域 也 经 常 被 使 用 到 , 它 对 处 理 句 子 分 类 任务 
是 很 有 效 的 。 

在 句子 分 类 任务 中 ， 把 给 定 句子 归 类 为 一 类 。 我 们 将 使 用 一 个 问题 数据 库 ， 其 中 每 个 问题 都 用 
问题 的 内 容 来 做 标记 (标签 》。 例 如 ，“ 谁 是 秦始皇 ? ”将 是 一 个 问题 ， 它 的 标签 将 是 “人 ”。 关 
于 问题 句子 分 类 的 数据 集 ， 国 外 有 些 现成 的 数据 集 。 例 如 ，http://cogcomp.org/Data/QA/QC/ 上 提供 
的 句子 分 类 数据 集 ， 我 们 可 以 找到 1000 个 训练 句子 及 其 各 自 的 标签 和 500 个 测试 句子 。 

这 里 ， 我 们 将 参考 大 家 所 熟知 的 Yoon Kim 于 2014 年 发 表 的 论文 《Convolutional Neural 
Networks for Sentence Classification》， 来 解读 CNN 在 NLP 任务 中 的 工作 价值 。 然 而 ， 使 用 CNN 
进行 句子 分 类 与 我 们 讨论 过 的 MNIST 示例 有 些 不 同 ， 因 为 现在 有 些 操作 〈 例 如 ， 卷 积 和 池 化 ) 是 
发 生 在 一 维 而 不 是 二 维 层 面 上 。 此 外 ,这 里 的 池 化 运算 也 将 与 正常 的 池 化 运算 有 一 定 的 差异 , 在 后 
面 就 会 看 到 。 相 关 完 整 代 码 ， 可 查看 ch5 文件 夹 下 的 5_cnn_sentence_classification.ipynb 文件 。 


5.10.1 ”CNN 结构 部 分 


现在 我 们 讨论 一 下 用 于 句子 分 类 的 CNN 的 技术 细节 。 首 先 ， 我 们 将 讨论 如 何 把 数据 或 句子 转 
换 为 CNN 可 以 轻松 处 理 的 首选 格式 。 接 下 来 ， 我 们 讨论 卷 积 和 池 化 运算 如 何 适 用 于 句子 分 类 ， 最 
后 ， 我 们 再 讨论 所 有 这 些 组 件 是 如 何 连接 的 。 

1. 数据 转换 

假设 一 个 由 p 词 所 组 成 的 句子 。 首 先 , 我 们 用 一 些 特殊 的 词 填 充 句 子 (如果 句 子 的 长 度 是 小 于 
n 的 ) ， 将 句子 长 度 设置 为 n 个 词 ， 其 中 三 p。 接 下 来 , 我 们 将 通过 大 小 为 的 向 量 来 表示 句子 中 
的 每 个 词 ， 其 中 该 向 量 可 以 用 One-Hot 编码 表示 ， 也 可 以 使 用 Skip-Gram、CBOW 或 GloVe 等 模 
型 来 表示 。 然 后 ， 一 组 大 小 为 5 的 句子 可 以 用 bxnxk 和 矩阵 表示 。 

下 面 来 看 一 个 例子 : 


@ BobandMary are friends. 

® Bobplays soccer. 

@@ Mary likes to sing im the choir. 

在 这 个 例子 中 , 第 三 个 句子 的 单词 最 多 , 所 以 让 我 们 设置 n=7, 这 是 第 三 个 句子 中 的 单词 数 。 
接 下 来 ， 让 我 们 看 一 下 每 个 单词 的 One-Hot 编码 表示 情况 。 由 于 整体 情况 下 这 里 有 13 个 不 同 的 单 
词 ， 因 此 我 们 得 到 如 下 表示 : 


Bob: 1,0,0,0,0,0,0,0,0,0,0,0,0 
and: 0,1,0,0,0,0,0,0,0,0,0,0,0 
Mary: 0,0,1,0,0,0,0,0,0,0,0,0,0 
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而 且 ， 出 于 同样 的 原因 ,k= 13。 通 过 这 种 表示 ， 我 们 可 以 将 三 个 句子 表示 为 大 小 为 3X7X13 
的 三 维和 矩阵 ， 如 图 5-37 所 示 。 


Man [ololi[ololo[o[ojololololr 
mas |ololololololol1lololololo 
四 oo olololololo 110|01olo 
Bob |1[ololofofolololololololoblolo 
pays |ololololol1lololololo 2 olo 
soccer |o|ololololol1lolololofoloblolo 
Beob |1|olololololololololololobloloblolo 
ad [ol1lololololololololololoblolo 7 
Mary Daguoaouooat 0|0 
am 和 ol0 
mends |o|lololol1lolololololololo 了 
PAD [ololololololololololololol , 
PAo [ololololololololololololol.” 


图 5-37 句子 矩阵 示意 图 


2. 卷 积 运算 部 分 

如 果 我 们 忽略 批量 大 小 ， 也 就 是 说 ， 如 果 假 设 一 次 只 处 理 一 个 句子 ， 那么 我 们 的 数据 将 是 一 个 
nxk 和 矩阵 ， 其 中 是 填充 后 每 个 句子 的 单词 数 、K 是 一 个 词 向 量 的 维度 。 在 上 面 的 例子 中 ， 这 个 数 
据 是 7x13 矩阵 。 

现在 我 们 把 卷 积 权重 值 矩 阵 定义 为 mxk 的 大 小 ， 其 中 m 是 一 维 卷 积 运算 的 过 滤器 的 大 小 。 通 
过 把 大 小 为 nxk 的 输入 x 与 大 小 为 mxk 的 权重 值 矩 阵 更 做 卷 积 运算 ， 我 们 将 产生 大 小 为 1xn 的 
输出 ， 如 下 所 示 : 


m k 


hay = > > WOD Xj-1D 


j=1 1 
这 里 ，wij) 是 下 的 第 (i, 个 元 素 ， 我 们 将 用 零 填充 x， 使 得 h 的 大 小 为 1xn。 此 外 ， 我 们 将 
给 出 此 运算 更 简单 的 定义 ， 如 下 所 示 : 
h=W*x+b 


这 里 ，* 定 义 了 卷 积 运算 〈 带 填充 ) ， 我 们 将 添加 一 个 额外 的 标量 偏差 5。 图 5-38 给 出 了 这 个 
运算 的 说 明 。 

然后 , 为 了 学 习 丰 富 的 特征 集合 , 我 们 提供 了 有 具有 不 同 卷 积 过 滤器 大 小 的 并 行 层 。 每 个 卷 积 层 
输出 一 个 大 小 为 1xn 的 隐藏 向 量 ， 我 们 将 连接 这 些 输出 以 形成 下 一 个 大 小 为 qxn 的 层 的 输入 ， 其 
中 9 是 我 们 使 用 的 并 行 层 数 。g 越 大 ， 模 型 的 性 能 越 好 。 

卷 积 的 值 可 以 用 以 下 方式 理解 。 想 一 下 电影 评级 学 习 问题 (有 两 个 分 类 , 正面 的 还 是 负面 的 )， 
我 们 有 以 下 句子 : 


© Ilike the movie,nottoo bad 
@@ Ididnotlike the movie, bad 
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Outputofa ; 
Single Layer : 


A Single Convolution Loyer 
图 5-38 句子 分 类 的 卷 积 运算 示意 图 
现在 想象 一 个 大 小 为 5 的 卷 积 窗口 。 让 我 们 根据 卷 积 窗 口 的 移动 来 装 箱 单词 (把 这 些 词 存储 起 


来 ) 。 
句子 “Ilike the movie, not too bad” 的 情况 如 下 所 示 : 
I, like, the, movie, ','] 
like, the, movie, ',', not] 
the, movie, ',', not, too] 
movie, ',', not, too, bad] 


句子 “Idid not like the movie, bad” 的 情况 如 下 所 示 : 


I, did, not, like, the] 

did, not ,like, the, movie] 
not, like, the, movie, ','] 
like, the, movie, ',', bad] 


对 于 第 一 句 话 ， 如 下 所 示 的 窗口 表示 的 评级 为 正面 的 : 


I, like, the, movie, ','] 


movie, ',', not too, bad] 


然而 ， 对 于 第 二 句 话 ， 以 下 窗口 给 出 的 评级 是 负面 的 : 
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[did, not, like, the, movie] 


由 于 保留 了 空间 性 ,因此 我 们 能 够 看 到 这 样 的 模式 有 助 于 对 评级 进行 分 类 。 例如 ， 如果 使 用 诸 
如 词 袋 (bag-ofwords) 之 类 的 技术 来 计算 丢失 空间 信息 的 句子 表示 ， 那 么 得 到 的 句子 表示 将 是 非 
常 相似 的 。 卷 积 运算 在 保留 句子 的 空间 信息 方面 起 着 非常 重要 的 作用 。 

通过 具有 不 同 过 滤器 大 小 的 g 个 不 同 层 , 神经 网 络 学 习 提取 了 具有 不 同 大 小 短语 的 评级 ， 从 而 
改善 了 模型 的 性 能 。 


5.10.2” 池 化 运算 


池 化 运算 被 设计 为 对 先前 讨论 的 并 行 卷 积 层 产生 的 输出 进行 二 次 采样 , 它 是 通过 以 下 方式 来 实 
现 的 。 

假设 最 后 一 层 有 的 输出 大 小 为 gqxn。 随 着 时 间 的 推移 ,该 池 化 运算 将 产生 大 小 为 gx1 的 输出 尹 ， 
具体 计算 如 下 : 

hin = max(h®) 

其 中 ,1<i<g。 

这 里 ，hG = WO *x+b 是 由 第 i 个 卷 积 层 产生 的 输出 ，W 个 是 属于 该 层 的 权重 值 集合 。 简 而 
言 之 ， 随 时 间 的 变化 ， 池 化 运算 通过 连接 每 个 卷 积 层 的 最 大 元 素来 创建 向 量 。 我 们 将 在 图 5-39 中 
说 明 此 运算 。 


Output of the 
. Pooling Over Time 
~ Layer 


国 一 国 


Convolution 
Outputofa Pooling Over Time 


Single Layer 


图 5-39 用 于 句子 分 类 的 池 化 运算 随 着 时 间 变化 的 示意 图 
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注意 : 在 图 5-39 中 ， 我 们 用 较 暗 的 颜色 来 表示 并 行 卷 积 层 的 最 大 值 。 
最 终 我 们 通过 组 合 这 些 运算 得 到 了 图 5-40 所 示 的 架构 。 


Convolution 


Ouput of the 
pooing over tme [1 
layer | 
Poolng mmm” 
Over Time el Fully- 加 
Layer ed | 
Wye” [7 
Sonmax 
Ouput 


nx 时 Convowaon 
Output of a 
Sngle Layer 


图 5-40 用 于 句子 分 类 的 CNN 架构 示意 图 


5.10.3 利用 CNN 实现 句子 分 类 


首先 ,我们 将 定义 输入 和 输出 。 输 入 批量 句子 ， 其 中 的 词 由 One-Hot 编码 的 词 向 量 表示 。 我 们 
知道 词 向 量 会 提供 比 One-Hot 编码 表示 更 好 的 性 能 ， 但 是 ， 为 简单 起 见 ， 我 们 这 里 使 用 One-Hot 
编码 表示 : 

sent_inputs = 
tf.placeholder (shape=[batch size,sent length,vocabulary size],dtype= 

tf.float32,name='sentence_ inputs') 


sent labels = tf.placeholder (shape=[batch size,num classes], 


dtype=tf.float32,name='sentence labels') 


这 里 , 我 们 定义 了 三 个 不 同 的 一 维 卷 积 层 , 其 中 三 个 不 同 的 过 滤器 的 大 小 分 别 为 3、5 和 7 (在 
filter_sizes 中 作为 列表 提供 ) ， 以 及 它们 各 自 的 偏差 : 


wl = tf.Variable (tf.truncated normal([filter sizes[0],vocabulary size,l 
stddev=0.02,dtype=tf.float32),name='weights 1') 
bl = tf.Variable (tf.random uniform([1],0,0.01,dtype=tf.float32), 
name='bias 1°') 


Ww2 = tf.Variable(tf.truncated normal ([filter sizes[1],vocabulary size,1]， 
stddev=0.02,dtype=tf.float32),name='weights 27) 
b2 = tf.Variable (tf.random uniform([1],0,0.01,dtype=tf.float32), 


name='bias 2') 


w3 = tf.Variable(tf.truncated normal([filter sizes[2],vocabulary size,1], 
stddev=0.02,dtype= tf.float32),name='weights 3') 
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b3 = tf.Variable (tf.random uniform([1],0,0.01,dtype=tf.float32), 


name="bias 3') 


现在 我 们 计算 出 这 三 个 输出 , 每 个 输出 属于 一 个 卷 积 层 ， 正 如 我 们 刚刚 定义 的 那样 。 我 们 可 以 
使 用 TensorFlow 中 提供 的 ttnn.conv1d 函数 来 轻松 完成 计算 。 我 们 使 用 步 幅 1 (stride=1) 和 和 零 填充 
来 确保 输出 与 输入 具有 相同 的 大 小 : 


hl 1 = tf.nn.relu(tf.nn.convld(sent inputs,wl,stride=l1,padding="'SAME') + bl) 
hl 2 = tf.nn.relu(tf.nn.convld(sent inputs,w2,stride=1,padding="'SAME') + b2) 
hl 3 = tf.nn.relu(tf.nn.convld(sent inputs,w3,stride=1,padding="'SAME') + b3) 


为 了 计算 随时 间 变 化 过 程 中 的 最 大 池 化 ， 我 们 需要 编写 基本 函数 来 在 TensorFlow 中 执行 相关 
运算 ， 因 为 TensorFlow 中 没有 执行 此 运算 的 本 地 函数 。 而 实际 上 ， 编 写 这 些 函 数 不 麻烦 。 
首先 ， 我 们 计算 每 个 卷 积 层 中 产生 的 最 大 值 。 这 会 为 每 个 图 层 生成 一 个 标量 : 


h2 1 = tf.reduce max (hl 1,axis=1) 


b 
ID 
外 


tf.reduce max (hl 2,axis=1) 
h2 3 = tf.reduce _ max (hl 3,axis=1) 


然后 ， 我 们 连接 轴 1 宽度 ) 上 产生 的 输出 ， 以 产生 大 小 为 batchsizexq 的 输出 : 

h2 = tf.concat ([h2 1,h2 2,h2 3],axis=1) 

接 下 来 ， 我 们 定义 完全 连接 的 层 ， 这 些 层 将 完全 连接 到 由 池 化 层 随时 间 而 产生 的 输出 
batchsizexq。 在 这 种 情况 下 ， 只 有 一 个 完全 连接 的 层 ， 这 也 将 是 我 们 的 输出 层 : 


w_fcl = tf.Variable(tf.truncated normal([len(filter sizes),num classes]， 
stddev=0.5,dtype=tf.float32),name='weights fulcon 1°') 
b fcl = tf.Variable(tf.random uniform([num classes],0,0.01,dtype= 
tf.float32),name='bias fulcon 1") 


此 处 定义 的 函数 将 生成 随后 用 于 计算 神经 网 络 损失 的 logits: 


logits = tf.matmul (h2,w fcl) + b fcl 


通过 将 softmax 激活 应 用 于 logits， 我 们 将 获得 相关 的 预测 : 


predictions = tf.argmax (tf.nn.softmax (logits),axis=1) 
此 外 ， 我 们 将 定义 损失 函数 ， 即 交叉 炉 损 失 : 


loss = tf.reduce meanl(tf.nn.softmax cross entropy with logits v2 


(labels=sent labels,1logits=logits)) 


为 了 优化 网 络 ， 我 们 使 用 名 为 MomentumOptimizer 的 TensorFlow 内 置 优化 器 : 


optimizer = tf.train.MomentumOptimizer (learning 


rate=0.01,momentum=0.9) .minimize(loss) 
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我 们 可 以 执行 这 些 先前 定义 的 操作 ， 以 便 优 化 CNN 并 评估 案例 中 给 出 的 测试 数据 ， 模 型 在 该 
句子 分 类 任务 中 给 出 了 接近 90% (500 个 测试 句子 ) 的 测试 准确 率 (在 49 个 Epoch 上 ， 训 练 数 据 
的 平均 损失 : 0.28， 测 试 数据 的 平均 准确 率 : 88.333， 详 见 代码 运行 结果 ) 。 

到 这 里 ， 关 于 使 用 CNN 进行 句子 分 类 的 讲解 就 结束 了 。 我 们 首先 讨论 了 如 何 将 一 维 卷 积 运算 
与 被 称 为 pooling over time 的 特殊 池 化 运算 相 结 合 ， 以 实现 基于 CNN 架构 的 句子 分 类 器 。 最 后 ， 
我 们 讨论 了 如 何 使 用 TensorFlow 来 实现 这 样 的 CNN， 我 们 看 到 它 在 句子 分 类 中 表现 良好 。 

了 解 刚才 解决 问题 的 思路 ， 有 助 于 我 们 在 现实 世界 中 把 这 种 解决 思路 利用 起 来 。 假设 我 们 有 一 
份 关于 罗马 历史 的 大 型 文档 ， 并 且 我 们 想 要 在 不 阅读 整 篇 文档 的 情况 下 认识 Julius Caesar。 在 这 种 
情况 下 , 我 们 刚刚 实现 的 句子 分 类 器 便 可 以 作为 一 个 工具 来 总 结 只 对 应 于 一 个 人 的 句子 , 不 必 阅读 
整个 文档 。 

旬 子 分 类 也 可 用 于 许多 其 他 任务 , 一 个 常见 的 用 途 是 将 电影 评论 分 类 为 正面 的 或 负面 的 , 这 对 
于 自动 计算 电影 评级 很 有 用 。 句子 分 类 的 另 一 个 重要 应 用 是 在 医学 领域 , 我 们 可 以 从 包含 大 量 文本 
的 大 型 文档 中 提取 出 临床 有 用 的 句子 。 


5.11 总 结 


在 本 章 中 ， 我 们 首先 说 明了 CNN 的 来 龙 去 脉 ， 并 对 其 五 个 层级 结构 〈 输 入 层 、 卷 积 运算 层 、 
激励 层 、 池 化 层 、 全 连接 层 ) 和 四 个 基本 运算 单元 ( 卷 积 运算 、 池 化 运算 、 全 连接 运算 和 识别 运算 ) 
有 了 认识 。 

其 次 ， 我 们 结合 CNN 网 络 的 四 个 基本 运算 单元 对 于 CNN 的 五 个 层级 结构 进行 逐一 解析 ， 对 
其 工作 原理 进行 了 详细 剖析 ， 并 讨论 了 几 个 与 这 些 运算 符 相 关 的 超 参 数 ， 例 如 过 滤器 大 小 、 步 幅 和 
填充 。 为 了 更 好 地 解释 CNN 中 的 各 个 组 件 ， 我 们 尽 可 能 详细 地 给 出 了 对 应 的 图 形 化 展示 。 

接着 ， 我 们 给 出 了 几 种 常见 经 典 卷 积 神经 网 络 : AlexNet、VGGNet、Google Inception Net 和 
ResNet， 并 逐一 从 网 络 思 想 、 结 构 、 特 性 亮点 等 方面 做 了 详尽 解读 ， 使 我 们 对 近 些 年 来 听 说 过 的 经 
典 卷 积 网 络 的 发 展 路 径 有 了 一 个 完整 的 认识 。 

最 后 ， 我 们 为 了 将 上 述 解 析 的 模型 思想 真正 落 到 代码 层面 ， 给 出 了 两 个 案例 : 利用 CNN 对 
MNIST 数据 集 进行 图 片 分 类 和 利用 CNN 对 句子 进行 分 类 。 在 对 MNIST 数据 集 进行 图 片 分 类 中 ， 
我 们 还 进行 了 一 些 分 析 ， 以 了 解 为 什么 CNN 无 法 正确 识别 某 些 图 像 。 而 在 利用 CNN 对 句子 进行 
分 类 中 ,我 们 讨论 了 可 用 于 对 句子 进行 分 类 的 CNN 架构 , 并 在 实际 的 句子 分 类 任务 上 进行 了 测试 。 

在 下 一 章 中 ,我 们 将 继续 讨论 用 于 许多 NLP 任务 最 流行 的 神经 网 络 之 一 :循环 神经 网 络 (RNN )。 


循环 神经 网 络 


在 本 章 中 ， 我 们 将 介绍 循环 神经 网 络 (Recurrent Neural Network，RNN) ， 它 是 一 类 旨 在 处 理 
输入 序列 数据 的 神经 网 络 ， 专 门 用 于 处 理 序列 x 1,x2,x3,…,x7 这 样 的 神经 网 络 。 这 些 输入 可 以 是 文 
本 、 语 音 、 时 间 序 列 , 序列 中 元 素 的 出 现 取 决 于 其 之 前 出 现 元 素 的 任何 其 他 内 容 。RNN 非常 灵活 ， 
就 像 卷 积 神经 网 络 能 够 很 轻松 地 扩展 到 具有 很 大 宽度 和 高 度 的 图 像 且 可 以 处 理 大 小 可 变 的 图 像 ， 
RNN 能 够 扩展 到 更 长 的 序列 且 多 数 能 够 处 理 可 变 长 度 的 序列 。 正 因为 如 此 ，RNN 已 被 广泛 用 于 解 
决 诸如 语音 识别 、 文 本 生成 、 情 感 分 析 、 图 像 字幕 提取 和 机 器 翻译 等 问题 。 

其 实 ，RNN 在 维护 着 一 个 状态 变量 ， 以 此 获取 序列 数据 中 存在 的 各 种 模式 ， 进 而 能 够 对 序列 
数据 建 模 。 传统 的 前 馈 神经 网 络 不 具有 这 种 能 力 , 除非 用 获取 序列 中 存在 的 重要 模式 的 特征 表示 来 
对 数据 进行 表示 。 然而 ,对 这 样 的 特征 表示 是 非常 困难 的 。 前 馈 网 络 对 序列 数据 进行 建 模 的 男 一 种 
方案 是 让 时 间 / 顺 序 中 的 每 个 位 置 具有 单独 的 参数 集 , 但 是 这 样 一 来 将 大 大 增加 内 存 的 压力 。 所 以 ， 
这 里 我 们 就 需要 利用 到 二 十 世纪 八 十 年 代 机 器 学 习 和 统计 学 思想 的 优点 : 在 模型 的 不 同 部 分 共享 参 
数 。 因 为 参数 共享 使 模型 能 够 扩展 到 不 同形 式 的 样本 且 可 以 泛 化 。 反 之, 在 每 个 时 间 点 上 均 有 单独 
的 参数 , 这 不 仅 难以 做 到 泛 化 训练 时 未 曾 出 现 过 的 序列 长 度 , 而 且 不 能 在 时 间 上 共享 不 同 序列 长 度 
以 及 各 个 位 置 的 统计 强度 。 比 如 ， 这 里 有 一 个 固定 长 度 的 句子 ， 我 们 要 去 训练 它 ， 传 统 的 全 连接 前 馈 
网 络 会 给 每 个 输入 特征 单独 分 配 一 个 参数 ， 这 样 对 于 句子 中 每 个 位 置 的 所 有 语音 规则 均 需 要 学 习 ， 而 
RNN 由 于 在 多 个 时 间 步 长 内 能 够 共享 相同 的 权重 值 ， 因 此 不 必 对 句子 中 每 个 位 置 的 语言 规则 都 学 习 一 遍 。 

在 本 章 中 , 我 们 将 深入 探讨 RNN 的 细节 。 首先 , 我 们 将 通过 计算 图 及 其 循环 图 的 展开 的 计算 ， 
引出 循环 网 络 。 在 此 之 后 ， 我 们 将 通过 序列 数据 模型 引出 RNN 结构 的 简要 计算 ， 并 从 数学 层面 给 
出 详解 。 我 们 还 将 深入 研究 相关 的 基础 方程 , 例如 RNN 的 输出 计算 和 参数 更 新 规则 ， 并 讨论 RNN 
应 用 的 几 种 变 体 : 一 对 一 、 一 对 多 、 多 对 一 和 多 对 多 的 RNN。 最 后 将 通过 一 个 案例 具体 介绍 使 用 
RNN 基于 训练 数据 集 来 生成 新 文本 ， 并 讨论 RNN 的 一 些 局 限 性 。 在 计算 和 评估 生成 的 文本 之 后 ， 
我 们 将 讨论 RNN 的 扩展 ， 称 为 RNN-CF， 与 常规 RNN 相 比 记忆 更 长 ， 最 后 通过 RNN-CF 给 出 案 
例 的 优化 ， 并 对 它 进行 解读 和 分 析 。 
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6.1 计算 图 及 其 展开 


计算 图 是 一 种 用 于 表达 和 评估 数学 表达 式 的 方式 , 被 定义 为 有 向 图 , 涉及 的 节点 对 应 于 数学 运 
算 。 例如， 将 输入 、 参 数 映 射 到 输出 和 损失 的 计算 等 。 这 里 我 们 结合 RNN 计算 得 到 的 重复 结构 进 
行 阐释 ， 这 些 重复 结构 一 般 对 应 于 一 个 事件 链 。 下 面 给 出 动态 系统 框架 下 的 经 典 形 式 : 
= f(s(-»;0) (6.1) 
这 里 se 代表 系统 状态 。 
显然 式 〈6.1) 是 循环 的 ， 对 于 有 限 的 t 而 言 ， 式 (6.1) 逐步 展开 最 终 会 得 到 不 涉及 循环 的 表 
达 形 式 。 因 此 ， 这 里 我 们 能 够 使 用 传统 的 有 向 无 环 计算 图 给 出 相关 表达 形式 ， 如 图 6-1 所 示 。 


图 6-1 式 (6.1) 的 计算 图 
图 6-1 将 式 (6.1) 代表 的 经 典 动态 系统 用 展开 的 计算 图 表示 出 来 。 每 个 节点 表示 在 某 个 时 刻 
1 的 状态 ， 并 且 函 数 ,/ 将 z 处 的 状态 映射 到 z+ 1 处 的 状态 。 所 有 时 间 步 长 都 使 用 相同 的 参数 〈 用 于 
参数 化 /的 相同 9 值 ) 。 
而 在 有 外 部 信号 进入 的 情况 下 ， 由 外 部 信号 xt 驱 动 的 动态 系统 表达 式 如 下 : 
= f(sce-y,xXe;0) (6.2) 
显然 当前 状态 涵盖 了 整个 过 去 的 序列 信息 。 
实际 上 , 涉及 循环 的 任何 函数 本 质 上 可 以 被 认为 是 一 种 循环 神经 网 络 , 且 多 数 循 环 神经 网 络 可 
以 由 式 (6.2) 来 定义 隐藏 单元 的 值 。 下 面 给 出 状态 变量 7 的 公式 ， 也 是 多 数 RNN 中 的 典型 公式 ， 
如 式 (6.3) 所 示 : 
he = f (hce_y, xe; 0) (6.3) 


结合 式 (6.3) ， 我 们 给 出 RNN 在 增加 外 部 信号 x 时 读 取 状态 信息 h 并 进行 预测 的 示意 图 ， 如 
图 6-2 所 示 。 


ee 
om 


图 6-2 RNN 在 增加 外 部 信号 x 时 读 取 状态 信息 h 并 进行 预测 的 示意 图 
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图 6-2 中 没有 输出 ， 此 循环 网 络 仅 处 理 来 自 输入 x 的 信息 ， 将 其 合并 到 经 过 时 间 向 前 传播 的 状 
态 h。 左 图 为 回路 原理 图 ， 黑 色 方 块 表 示 单 个 时 间 步 长 的 延迟 。 右 图 为 同一 网 络 被 展开 的 计算 图 ， 
其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相关 联 。 

这 里 ， 图 6-2 左 图 回路 图 中 黑色 方块 代表 在 时 刻 + 状态 到 时 刻 + + 1 状态 的 单个 时 刻 延迟 中 的 
相互 作用 。 

我 们 发 现 ， 对 于 式 6.3) 的 描述 可 以 有 两 种 方式 ， 一 种 是 左 图 代表 回路 原理 的 循环 图 ， 另 一 
种 是 右 图 代表 的 展开 计算 图 。 对 于 左 图 ， 网 络 给 出 了 实时 运算 回路 ， 当 前 状态 会 影响 其 未 来 状态 ; 
对 于 右 图 展开 的 计算 图 而 言 , 里 面 的 任意 一 个 组 件 均 有 多 个 不 同 的 变量 表达 式 , 一 个 时 间 步 长 一 个 
变量 , 表示 该 时 间 点 上 组 件 的 状态 情况 , 每 个 变量 为 计算 图 中 的 一 个 独立 节点 。 下 面 我 们 给 出 一 个 
函数 ge 来 代表 经 + 步 展 开 后 的 循环 : 


h.= ge (Xe XD Xt-2) es XzX1) (6.4) 
=f (hy Xe0) ( (6.5) 
结合 式 (6.4) 和 式 (6.5) ， 对 于 函数 g 而 言 ， 它 能 够 将 所 有 之 前 的 序列 (Xi,X(e_1),…,Xz,X1) 作 


为 输入 以 生成 当前 状态 。 同 时 我 们 可 以 看 到 , 展开 后 的 循环 结构 允许 我 们 把 函数 gt 分 解 为 重复 应 用 
的 函数 J。 显 然 ， 展 开 过 程 会 带 来 以 下 好 处 : 

(1) 无 论 序列 长 度 如 何 ， 训 练 好 的 模型 一 直 具 有 同样 的 输入 大 小 ， 这 是 由 于 它 指定 的 不 是 在 
可 变 长 度 的 历史 状态 上 运算 ， 而 是 由 一 种 状态 到 另 一 种 状态 的 转移 。 

(2) 在 每 个 时 间 步 长 我 们 可 以 使 用 相同 参数 的 相同 转移 函数 。 

综 上 所 述 , 循环 图 和 展开 图 都 有 各 自 的 用 途 。 循环 图 很 简洁 ,而 展开 图 可 以 清晰 地 描述 其 中 的 
计算 流程 , 还 可 以 借助 显 式 信息 流 的 流动 路 径 解释 信息 在 时 间 上 向 前 (计算 输出 和 损失 ) 和 向 后 ( 计 
算 梯度 ) 的 作用 。 


6.2 RNN 解读 


6.2.1 序列 数据 模型 
在 现实 世界 中 , 我 们 能 够 接触 到 很 多 像 fa xz,Xa, …,Xr}、 fy2ya ,7r} 这 样 的 序列 式 数据 ， 
并 且 这 些 序列 式 数据 在 多 个 领域 均 有 相应 的 应 用 ， 比 如 : 
(1) 在 自然 语言 处 理 中 ，xi 可 以 作为 第 一 个 词 ，xs 作 为 第 二 个 词 ， 后 面 以 此 类 推 。 
(2) 在 语音 处 理 中 ，x1,X2,Xa… 是 每 帧 的 声音 信号 。 
(3) 在 时 间 序 列 问题 中 ， 像 每 天 的 股票 价格 、 每 天 的 气温 等 。 
结合 6.1 节 的 内 容 ， 我 们 可 以 给 出 x 和 y 的 函数 关系 ， 如 下 : 
he = fi(hee_y,xe; 0) (6.6) 
yt = fo(he; 9) (6.7) 
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我 们 可 以 将 、 包 视 为 生成 x 和 ? 的 真实 模型 的 近似 值 ， 更 细 一 点 讲 ， 将 式 (6.6) 、 (6.7) 
扩展 如 下 : 


ye = fa fehee-y;0);9) (6.8) 
假设 这 里 {=<4， 由 式 (6.8) 可 知 y 为 : 
ys = fe fia, ha;0); 9) (6.9) 


下 面 对 式 (6.9) 做 进一步 展开 , 我 们 可 以 得 到 最 终结 果 ( 为 了 表达 式 清晰 起 见 , 这 里 省 略 6 和 gq): 
ys = fa ffs fF Fz, fF ho)))))))) (6.10) 
我 们 将 式 (6.10) 在 图 中 进行 展示 ， 如 图 6-3 所 示 。 


图 6-3 Xt 和 y, 之 间 的 关系 图 ， 随 着 1 的 增加 ， 后 面 继续 扩展 


这 里 ， 一 个 箭头 表示 对 相应 向 量 做 一 次 类 似 f (Wx +b) 的 变换 。 
对 于 任何 给 定 的 时 间 步 长 t， 我 们 一 般 以 图 6-4 来 概括 。 


f 
CY 
四 
图 6-4 一 个 RNN 结构 的 单 步 计算 示意 图 


尽管 如 此 ， 对 于 hi 而 言 ,实际 上 是 接收 Xe 之 前 的 he。 也 就 是 说 ，hn 实际 上 是 一 个 时 间 步 长 之 
前 的 he。 所 以 ,我们 可 以 使 用 循环 连接 来 表示 hi 的 运算 情况 ， 如 图 6-5 所 示 。 
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图 6-5 利用 循环 连接 对 RNN 结构 的 单 步 计算 示意 图 
注 : 这 里 的 黑色 框 与 6.1 节 中 的 含义 一 样 ， 即 代表 单个 时 间 步 长 的 延迟 


在 图 6-5 中 ， 我 们 可 以 看 到 ， 这 里 概括 了 序列 {x4, ja ,ja ,好 } 映 射 到 序列 fa 和 的 
方程 链 。 更 进一步 讲 ， 通 过 hs_1)、he、 认 可 以 得 到 任意 的 y,， 这 也 是 RNN 的 核心 思想 所 在 。 


6.2.2 ”数学 层面 简要 解读 RNN 


现在 让 我 们 继续 研究 一 下 RNN 到 底 是 什么 ， 并 为 RNN 中 的 计算 定义 数学 方程 式 。 让 我 们 从 
派生 的 两 个 函数 开始 ， 作 为 从 立 学 习 yw 的 函数 逼近 器 : 
he 三 fxe, he-D;9) 
yt = fo(he; yp) 
正如 我 们 所 看 到 的 那样 ,神经 网 络 由 一 组 权重 值 、 偏 差 和 非 线 性 激活 函数 所 组 成 , 我 们 可 以 改 
写 前 面 的 关系 如 下 : 
he = tanh(Uxe + Whee-1)) 


这 里 ，tanhO 〇 是 tanh 激活 函数 ，U 是 大 小 为 mxd 的 权重 值 窃 阵 ， 其 中 m 是 隐藏 单元 的 数量 ， 
d 是 输入 的 维 数 。 此 外 , 球 是 大 小 为 mxm 的 权重 值 矩 阵 ， 它 创建 了 从 hoy 到 户 的 循环 连接 。 上 面 
的 ye 关系 式 可 由 以 下 等 式 给 出 : 

yr = sof tmax(Vh.) 

这 里 ,VV 是 大 小 为 cxm 的 权重 值 符 阵 ，e 是 输出 的 维 数 〈 可 以 是 输出 类 的 数量 ) 。 这 样 一 来 ， 
我 们 就 可 以 给 出 这 些 权重 值 形 成 RNN 的 路 径 图 ， 如 图 6-6 所 示 。 

综 上 所 述 , 我 们 已 经 阐释 了 通过 计算 节点 图 来 表示 一 个 RNN, 并 大 致 学 习 了 RNN 背后 的 数学 
逻辑 关系 。 下 一 步 ， 我 们 将 对 RNN 的 权重 值 进行 优化 《或 者 训练 ) ， 以 便 更 好 地 学 习 序列 数据 样 
本 。 
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6-6 RNN 的 结构 示意 图 ， 边 表示 计算 


6.3 通过 时 间 的 反 向 传播 算法 


对 于 训练 RNN， 使 用 一 种 特殊 形式 的 反 向 传播 ， 称 为 通过 时 间 的 反 向 传播 (Back Propagation 
Through Tine，BPTT) 。 本 节 首 先 介绍 反 向 传播 (BP) 的 工作 原理 ;然后 讨论 为 什么 反 向 传播 不 
能 直接 应 用 于 RNN， 以 及 反 向 传播 如 何 适应 RNN 后 可 以 产生 BPTT; 最 后 讨论 BPTT 中 存在 的 两 
个 主要 问题 。 


6.3.1 反 向 传播 工作 原理 


反 向 传播 是 用 于 训练 前 馈 神经 网 络 的 技术 ， 在 反 向 传播 中 ， 执 行 以 下 操作 : 


(1) 计算 给 定 输入 的 预测 。 
(2) 通过 将 预测 与 对 应 实际 值 进行 比较 来 计算 预测 误差 E〈 例 如 均 方 误差 和 交叉 糖 损失 ) 。 
(3) 在 所 有 层 上 的 所 有 权重 值 wa (第 i 层 上 第 j 个 权重 值 ) 的 梯度 _-aE_ 的 反方 向 调整 一 个 


wd 


小 的 步 长 ， 更 新 前 馈 网 络 的 权重 值 ， 从 而 使 得 步骤 (2) 中 的 计算 损失 最 小 化 。 


为 了 方便 理解 , 我 们 这 里 给 出 前 馈 网 络 的 示意 图 且 省 去 了 输入 和 输出 的 时 间 部 分 。 这 里 有 两 个 
单一 权重 值 : U 和 V， 且 计算 出 两 个 输出 h 和 y， 具 体 如 图 6-7 所 示 《〈 这 里 假设 模型 中 不 存在 非 线 
性 ) 。 
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图 6-7 前 馈 网 络 计算 
所 以 ， 我 们 可 以 利用 链 式 法 则 计算 至， 如 下 : 


QE _ 9(y-D)? ovh) 9(Ux) 
aU ay On au 


进一步 简化 得 到 : EL 


aU dyohou 
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这 里 ，7 是 数据 点 x 的 正确 标签 。 此 外 ， 我 们 假设 均 方 误差 为 损失 函数 。 这 里 的 所 有 内 容 都 已 


定义 ， 计 算 冯 就 较为 简单 了 。 


6.3.2 ”直接 使 用 反 向 传播 的 局 限 性 


现在 ， 我 们 对 图 6-8 中 的 RNN 进行 类 似 的 操作 ， 这 里 新 增加 了 一 个 循环 权重 值 W。 


(5 
ER =UZ+Wh 
9 


图 6-8 RNN 的 计算 
下 面 对 到 的 计算 使 用 链 式 法 则 ， 得 到 : 
BE _OLOy Oh 
ow yahaw 
_ 0-D? ovh) ,a(Ux) | a(Wh). 
~ Oy en 《 aw aw ) 


这 里 ， 由 于 292 是 一 个 递归 项 ， 本 身 就 会 带 来 一 些 问题 。 最 终 会 得 到 无 穷 多 的 导数 项 ,因为 
是 递归 的 (也 就 是 说 ,计算 九 包 括 九 本身) ， 且 不 是 常数 并 依赖 于 W。 在 这 种 情况 下 ， 我 们 直 
要 利用 基于 时 间 展 开 输 入 序列 x 来 解决 ， 为 每 个 输入 x 创建 RNN 的 副本 并 分 别 计算 每 个 副本 的 导 
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数 ， 通 过 对 梯度 求 和 将 它们 回 滚 以 更 新 权重 值 。 接 下 来 简要 讨论 一 下 具体 情况 。 


6.3.3 ”通过 反 向 传播 训练 RNN 


计算 RNN 反 向 传播 的 技巧 是 不 考虑 单个 输入 ， 而 是 考虑 完整 的 输入 序列 。 如 果 我 们 在 时 间 步 
长 为 4 上 时 计算 如 ， 将 得 到 以 下 结果 : 


OE wa OL Oy4 Oha ohj 


WwW Sj=10y4 ans onj ow 
这 意味 着 我 们 需要 一 直 计算 到 第 4 个 时 间 步 长 的 所 有 时 间 步 长 的 梯度 之 和 。 换 句 话说 , 我们 将 
首先 展开 序列 ， 以 便 可 以 计算 每 个 时 间 步 长 j 的 3 3 和 有 ,这 是 通过 创建 RNN 的 4 个 副本 来 完成 的 。 
因此 ， 要 计算 如:， 就 需要 (t-j+1) 份 的 RNN。 接着 将 这 些 天 本 郑 起 到 单个 RNN， 通过 之 前 所 有 时 间 
步 长 获得 的 梯度 归 总 求 和 ， 并 用 梯度 至 更 新 RNN。 但 是 ， 这 里 有 一 个 问题 ， 随 着 时 间 步 长 数 的 增 
加 , 相应 计算 成 本 也 会 增加 。 为 了 解决 这 个 问题 , 我 们 将 会 使 用 截断 BPTT (TBPTT) 来 优化 模型 ， 
这 是 BPTT 的 近似 值 。 


6.3.4 ”截断 BPTT 


在 截断 BPTT 中 ， 我 们 只 计算 固定 数量 的 T 个 时 间 步 长 的 梯度 ， 更 具体 地 说 ， 在 计算 至 时 ， 
对 于 时 间 步 长 tf， 我们 只 计算 导数 ， 直 到 t-T: 
Cy OL Oyr Ohe Ohj 
J -7 By oh on oaw 
这 比 标准 BPTT 计算 效率 高 得 多 。 在 标准 BPTT 中 ， 对 于 每 个 时 间 步 长 t, 我 们 计算 直到 序列 最 开 
始 的 导数 ， 但 随 着 序列 长 度 变 得 越 来 越 长 〈 例 如 逐 字 处 理 文本 文档 ) ， 这 种 计算 是 难以 实现 的 。 而 在 
截断 的 BPTT 中 ， 我 们 仅 向 后 计算 固定 数量 的 导数 ， 可 以 想象 ， 随 着 序列 变 大 ， 计 算 成 本 不 会 改变 。 


6.3.5 BPTT 的 局 限 性 一 一 梯度 消失 和 梯度 爆炸 


我 们 有 办 法 计算 循环 权重 值 的 梯度 并 给 出 有 效 的 近似 值 ， 如 TBPTT， 这 让 我 们 对 于 平稳 地 训 
练 RNN 感到 担忧， 这 里 的 计算 其 实 出 现 了 其 他 问题 。 
为 了 了 解 其 中 的 原因 ， 让 我 们 在 至 中 进行 相关 扩展 ， 如 下 所 示 : 


OL gyaghagha OL Oys O(Ux+Wha) O(Ux+Who) 


OyaOhaOhi OW GyaOhas Ohi aw 


由 于 我 们 知道 反 向 传播 的 问题 来 自 循环 连接 层 ， 让 我 们 忽略 Ux 项 ， 上 式 后 边 变 为 : 


OL Oya Oha Ohs_ ar ayaadwha)adrho) 


Oyas Ohas Ohi1 OW Oyasohs ah Aw 
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下 面 我 们 对 hs 继续 展开 简单 运算 ， 得 到 : 
et ed 号 二 卫 hoW3 


aya Ohas Oh1 OW dysOhs 
这 里 我 们 看 到 只 有 4 个 时 间 步 长 便 产 生 一 个 W3， 因 此 在 时 间 步 长 为 “第 几 个 ”时 ， 它 将 变 为 
WD。 下 面 从 两 个 方向 对 W 进行 极 值 分 析 ， 以 此 探讨 梯度 消失 和 梯度 爆炸 的 成 因 。 
1. 梯度 消失 


假设 我 们 在 n= 100 的 时 间 步 长 上 将 W 初始 化 得 非常 小 (比如 0.00001) ， 那 么 梯度 将 会 无 穷 
小 (比如 0.15%?) 。 另 外 ， 由 于 计算 机 在 表示 数值 方面 的 精度 有 限 ， 因 此 将 此 更 新 (数值 下 涪 ) 忽 
略 ， 这 被 称 为 消失 的 梯度 。 解 决 消失 的 梯度 问题 并 不 简单 。 这 里 没有 简单 的 方法 来 重 塑 梯度 ， 以 便 
它 能 够 在 时 间 上 正确 传播 。 在 某 种 程度 上 ， 解 决 梯度 消失 问题 的 方法 是 谨慎 使 用 权重 值 初 始 化 〈 例 
如 Xavier 初始 化 ) ， 或 使 用 基于 动量 的 优化 方法 〈 也 就 是 说 ， 除 了 当前 的 梯度 更 新 外 ， 我 们 还 添 
加 了 一 个 额外 项 ， 即 所 有 过 去 梯度 的 累积 ， 称 为 速度 项 (Velocity Termm) ) 。 然 而 ， 正 如 我 们 将 在 
第 7 章 “ 长 短期 记忆 网 络 ”中 看 到 的 那样 ， 己 经 引入 了 更 多 有 规则 的 解决 方法 ， 例 如 对 标准 RNN 
的 不 同 结构 调整 等 。 

2. 梯度 爆炸 


假设 我 们 将 W 的 取 值 初始 化 得 非常 大 (比如 1000.00〉， 则 在 时 间 步 长 n 取 100 时 ,梯度 将 变 
得 非常 大 (比例 为 103”) 。 这 会 导致 数值 非常 不 稳定 ， 在 Python 中 将 会 获得 诸如 Inf (无 穷 大 ) 
或 NaN (不 是 一 个 数值 ) 之 类 的 结果 ， 这 就 称 为 梯度 爆炸 。 

其 实 , 问题 损失 表面 产生 的 复杂 性 也 可 能 引起 梯度 爆炸 。 由 于 输入 的 维 数 以 及 模型 中 存在 的 大 
量 参数 〈 权 重 值 ) ， 复 杂 的 非 凸 损 失 表 面 在 深度 神经 网 络 中 非常 普遍 。 图 6-9 显示 了 RNN 的 损失 
表面 ， 并 突出 显示 了 具有 很 高 曲率 表面 的 存在 。 如 果 优 化 方法 与 这 样 的 表面 接触 ， 梯 度 就 会 爆炸 ， 
如 图 6-9 中 的 实 线 所 示 。 这 可 能 导致 非常 差 的 损失 最 小 化 或 数值 不 稳定 性 或 两 者 兼 而 有 之 。 在 这 种 
情况 下 ， 避 免 梯 度 爆炸 的 简单 解决 方案 是 在 梯度 大 于 某 个 阔 值 时 将 梯度 取 值 调整 为 足够 小 。 图 6-9 
中 的 虚线 表示 当 我 们 将 梯度 调整 为 某 个 较 小 值 时 会 发 生 什么 。 


证 
5.4 -2.6 -2.4 
和 -2.8 -2.6value ofb 


6-9 ”梯度 爆炸 情况 
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关于 训练 RNN 中 的 梯度 问题 ， 论 文 《On the Difficulty of Training Recurrent Neural Networks》 
(Pascanu,Mikolov, and Bengio, International Conference on Machine Learning (2013): 1310-1318) 做 
了 相关 分 析 ， 感 兴趣 的 读者 可 以 阅读 该 论文 。 
到 目前 为 止 , 我 们 讨论 的 都 是 一 对 一 映射 的 RNN。 接 下 来 , 我 们 将 对 各 种 映射 类 型 的 RNN 做 
相关 介绍 ， 这 些 不 同 映射 类 型 的 RNN 在 句子 分 类 、 图 像 字幕 提取 及 机 器 翻译 中 有 很 好 的 应 用 。 


6.4_RNN 的 应 用 类 型 


-对 一 映射 的 RNN 中 ， 当 前 输出 取决 于 当前 输入 以 及 先前 观察 到 的 输入 历史 。 这 意味 着 存在 
先前 观察 到 的 输入 序列 和 当前 输入 的 输出 。 然 而 ， 在 实际 的 应 用 中 ， 可 能 存在 这 样 的 情况 : 输入 序 
列 只 有 一 个 输出 、 单 个 输入 产生 的 输出 序列 以 及 序列 大 小 不 同 的 输入 序列 产生 的 输出 序列 。 在 本 节 
中 ， 我 们 将 对 这 些 情况 做 相关 介绍 。 


6.4.1 一 对 一 的 RNN 


在 一 对 一 的 RNN 中 ， 目 前 的 输入 取决 于 先前 观察 到 的 输入 ， 如 图 6-10 所 示 。 这 种 RNN 适用 
于 每 个 输入 都 有 输出 的 问题 , 但 输出 取决 于 当前 输入 和 导致 当前 输入 的 输入 历史 情况 。 这 类 任务 的 
-个 典型 例子 是 股票 市 场 预测 。 另 一 个 例子 是 场景 分 类 , 其 中 图 像 中 的 每 个 像素 被 标记 (例如 汽车 、 
道路 和 人 的 标签 》。 对 于 某 些 问题 ， 有 时 xct+b 可 能 与 xm 相同 。 例 如， 在 文本 生成 问题 中 ， 先 前 预 
测 的 词 变 为 预测 下 一 个 词 的 输入 。 


6.4.2 一 对 多 的 RNN 


一 对 多 的 RNN 采用 单个 输入 并 输出 序列 ， 如 图 6-11 所 示 。 这 里 假设 输入 彼此 之 间 是 独立 的 。 
也 就 是 说 ， 我 们 不 需要 有 关 先 前 输入 的 信息 来 预测 当前 输入 。 循 环 连接 还 是 需要 的 ， 因 为 尽管 我 们 
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处 理 单个 输入 ， 但 输出 依赖 于 先前 输出 值 的 一 系列 值 。 这 类 RNN 常 应 用 于 图 像 字幕 任务 ， 例 如 对 
于 给 定 的 输入 图 像 ， 文 本 标题 可 以 由 5 个 或 10 个 词 所 组 成 。 换 名 话说，RNN 将 保持 预测 词 ， 直 到 
它 输出 的 短语 对 于 描述 图 像 是 有 意义 的 。 


图 6-11 一 对 多 的 RNN 


6.4.3 多 对 一 的 RNN 


多 对 一 的 RNN 采用 任意 长 度 的 输入 作为 输入 ， 并 为 输入 序列 产生 单个 输出 ， 如 图 6-12 所 示 。 
句子 分 类 就 是 这 样 一 项 任务 ， 可 以 从 多 对 一 的 RNN 中 受益 。 句 子 是 任意 长 度 的 词 序列 ， 其 被 视 为 
网 络 的 输入 ， 用 于 产生 将 句子 分 类 为 一 组 预定 义 类 之 一 的 输出 。 句 子 分 类 的 一 些 具体 例子 如 下 : 


(1) 将 电影 评论 分 类 为 正面 或 负面 陈述 〈 情 感 分 析 ) 。 
(2) 根据 句子 描述 的 内 容 〈 例 如 和 信物 、 对 象 和 位 置 ) 对 句子 进行 分 类 。 


多 对 一 的 RNN 的 另 一 个 应 用 是 通过 一 次 只 处 理 一 块 图 像 并 在 整个 图 像 上 移动 窗口 来 对 大 尺寸 
图 像 进行 分 类 。 


3 


6-12 多 对 一 的 RNN 


6.4.4 多 对 多 的 RNN 


多 对 多 的 RNN 通常 从 任意 长 度 的 输入 中 产生 任意 长 度 的 输出 ， 如 图 6-13 所 示 。 换 句 话说 ， 输 
入 和 输出 不 必 具 有 相同 的 长 度 。 这 在 机 器 翻译 中 特别 有 用 , 我 们 将 句子 从 一 种 语言 翻译 成 另 一 种 语 
言 时 ， 可 以 想象 ， 某 种 语言 中 的 一 个 句子 并 不 总 是 与 另 一 种 语言 的 句子 对 齐 。 另 一 个 应 用 是 聊天 机 
器 人 ， 聊 天 机 器 人 读 取 一 系列 词 (用户 请 求 ) 并 输出 一 系列 词 (答案 ) 。 
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6-13 多 对 多 的 RNN 


6.5 利用 RNN 生成 文本 


现在 让 我 们 看 一 下 使 用 RNN 的 第 一 个 例子 。 在 本 例 中 , 我 们 将 使 用 RNN 生成 一 个 童话 故事 。 
这 是 一 对 一 的 RNN 问题 。 我 们 将 在 一 系列 童话 故事 中 训练 单 层 RNN， 并 要 求 RNN 生成 一 个 新 故 
事 。 对 于 这 项 任务 ,我 们 将 使 用 一 个 包含 20 个 不 同 故事 的 小 型 文本 语料库 。 这 个 例子 将 突显 出 RNN 
的 一 个 重大 局 限 性 : 缺乏 持久 的 长 期 记忆 。 本 例 代 码 详 见 ch6 文件 夹 中 的 
6_rmmn language_bigram.ipynb 文件 。 


6.5.1 定义 超 参数 


定义 RNN 所 需 的 几 个 超 参 数 具 体 如 下 : 

(1) 单个 时 间 步 长 一 次 性 执行 的 展开 次 数 。 这 是 输入 展开 的 步 数 , 如 截断 BPTT 方法 (TBPTT 
中 的 T (Truncated) 是 有 效 训练 RNN 部 分 ) 中 所 讨论 的 。 该 数字 越 大 ，RNN 的 记忆 越 长 。 但 是 ， 
由 于 梯度 消失 因素 ， 对 于 非常 高 的 num_unroll 值 〈 例 如 大 于 50) ， 此 值 的 效果 会 消失 。 注 意 ， 增 
加 num_unroll 也 会 增加 程序 的 内 存 需 求 。 

(2) 训练 数据 、 验 证 数据 和 测试 数据 的 批量 大 小 。 较 高 的 批量 大 小 通常 会 带 来 更 好 的 结果 ， 
因为 我 们 会 在 每 个 优化 步骤 中 看 到 更 多 数据 , 然而 和 num_unroll 一 样 , 这 会 导致 更 高 的 内 存 需 求 。 

(3) 输入 、 输 出 和 隐藏 层 的 维度 。 增 加 隐藏 层 的 维度 通常 会 带 来 更 好 的 性 能 。 但 请 注意 ， 增 
加 隐藏 层 的 大 小 会 导致 所 有 三 个 权重 值 集合 ( 即 U、W 和 V) 的 增加 ， 从 而 导致 占用 较 高 的 计算 
空间 。 


首先 定义 展开 、 批 量 并 测试 批量 大 小 : 


num unroll = 50 
batch size = 64 
test batch size =1 


接 下 来 定义 隐藏 层 中 的 单元 数 〈 这 里 使 用 单个 隐藏 层 RNN) ， 给 出 输入 和 输出 大 小 : 


hidden = 64 


in size,out size = vocabulary size,vocabulary size 
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6.5.2” 随 着 时 间 的 推移 展开 截断 BPTT 的 输入 
正如 我 们 之 前 看 到 的 ， 随 着 时 间 的 推移 展开 输入 是 RNN 优化 过 程 (TBPTT) 中 的 重要 部 分 。 


因此 ， 下 一 步 是 : 定义 输入 如 何 随时 间 展 开 。 
这 里 给 出 一 个 例子 ， 假 设 有 一 个 句子 如 下 : 


Bob and Mary went to buy some flowers. 


假设 我 们 以 字符 的 粒度 级 别处 理 数 据 。 另 外 ， 考 虑 一 批 数据 ， 并 且 展 开 的 步 数 Cnum_unroll) 


首先 ， 我 们 将 句子 拆 分 成 字符 : 


Bo by Ta nd Ma er 
汪汪 站 有 站 A 
"oo W's ‘ey, rs" 


我 们 采用 展开 的 前 三 批 输入 和 输出 ， 如 表 6-1 所 示 。 
表 6-1 前 三 批 输入 和 输出 


'B','0', b','', ‘a ob av 


通过 这 样 做 ，RNN 一 次 看 到 相对 长 的 数据 序列 ， 不 像 一 次 处 理 单个 字符 。 因 此 ， 它 可 以 保留 
更 长 的 序列 记忆 : 


train dataset, train labels = []，[] 
for ui in range (num unroll): 
train dataset.append (tf.placeholder (tf.float32, 
shape=[batch size,in size],name='train dataset %d'%ui)) 
train labels.append (tf.placeholder (tf.float32, 


shape=[batch size,out sizel],name='train labels %d'%ui)) 


6.5.3 ”定义 验证 数据 集 


我 们 将 定义 一 个 验证 数据 集 以 测量 RNN 随时 间 的 性 能 情况 。 我 们 不 会 使 用 验证 集中 的 数据 进 
行 训练 ， 只 观察 验证 数据 的 预测 作为 RNN 性 能 的 指标 : 


valid dataset = tf.placeholder (tf.float32, 
shape=[1,in size],name='valid dataset') 
valid labels = tf.placeholder (tf.float32, 


shape=[1l,out size],name="'valid labels') 
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我 们 使 用 较 长 的 故事 收集 验证 集 , 并 从 最 后 提取 故事 的 一 部 分 。 代 码 文件 中 有 详细 的 解释 记录 ， 
读者 可 以 自行 查看 。 


6.5.4 定义 权重 值 和 偏差 


在 这 里 ， 我 们 将 定义 RNN 的 几 个 权重 值 和 偏差 参数 。 


@ W xh: 输入 和 隐藏 层 之 间 的 权重 值 。 
@ W hh: 隐藏 层 的 重复 连接 的 权重 值 。 
@ W hy: 隐藏 层 和 输出 之 间 的 权重 值 。 


W xh = tf.Variable (tf.truncated normall( 
[in size,hidden],stddev=0.02, 
dtype=tf.float32),name='W_ xh') 
W hh = tf.Variable (tf.truncated normal([hidden,hidden], 
stddev=0.02, 
dtype=tf.float32) ,name='W_hh') 
W hy = tf.Variable (tf.truncated normall( 
[hidden,out size],stddev=0.02, 
dtype=tf.float32),name='W_ hy') 


6.5.5 ”定义 状态 永久 变量 


在 这 里 , 我 们 将 定义 用 于 区 分 RNN 与 前 馈 神 经 网 络 的 最 重要 的 实体 之 一 : RNN 的 状态 。 状 态 
变量 代表 RNN 的 记忆 。 此 外 ， 这 些 被 建 模 为 不 可 训练 的 TensorFlow 变量 。 

我 们 将 首先 定义 变量 〈 训 练 数据 : prev_train_ h 和 验证 数据 : prev_valid_ h) 以 维持 用 于 计算 当 
前 隐藏 状态 的 隐藏 层 的 先前 状态 。 我 们 将 定义 两 个 状态 变量 。 一 个 状态 变量 在 训练 期 间 维 持 RNN 
的 状态 ， 另 一 个 状态 变量 在 验证 期 间 维 持 RNN 的 状态 : 


prev train h = tf.Variable(tf.zeros([batch size,hidden], 


dtype=tf.float32),name='train h',trainable=False) 
name='prev_hl',trainable=False) 
prev valid h = tf.Variable (tf.zeros([l,hidden],dtype=tf.float32), 


name="'valid h',trainable=False) 


6.5.6 ”使 用 展开 的 输入 计算 隐藏 状态 和 输出 


接 下 来 , 我 们 将 定义 每 个 展开 输入 的 隐藏 层 计 算 、 非 标准 化 分 数 和 预测 。 为 了 计算 每 个 隐藏 层 
的 输出 ， 我 们 保存 表示 每 个 展开 元 素 的 num_unroll 隐藏 状态 输出 代码 中 的 outputs) 。 然 后 计算 
所 有 num_unroll 步 的 非 标准 化 预测 〈 也 称 为 logits 或 得 分 ) 和 softmax 预测 。 
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# 在 num_unroll 步 数 中 ， 为 每 个 步 长 添加 上 计算 的 RNN 输出 
outputs = 1List() 
# 这 将 在 计算 的 num_unrol1l 步 数 中 迭代 使 用 
output h = prev train h 
# 计算 num_unrol1 步 数 的 RNN 输出 (根据 截断 的 BPTT 的 要 求 ) 
for ui in range (num unroll): 
output h = tf.nn.tanh( 
tf.matmul (tf.concat ([train dataset[uil],output h],1), 
tf.concat ([W xh,W_ hh],0)) 
) 
outputs.append (output h) 


然后 计算 非 标准 化 预测 〈y_scores) 和 标准 化 预测 〈y_predictions) ， 如 下 所 示 : 
# 获取 我 们 为 num_unrol1l 步 生成 的 所 有 RNN 输出 的 分 数 和 预测 


Y_scores = [tf.matmul (outputs[uil,W_hy) for ui in range (num_unroll) 1] 
Y_predictions = [tf.nn.softmax(y scores[ui]) for ui in Tange (num_ 
unroll) 1] 


6.5.7 计算 损失 


在 计算 预测 之 后 ， 接 着 计算 mmn_loss。 损 失 是 预测 输出 和 实际 输出 之 问 的 交叉 焙 损 失 。 注 意 ， 
我 们 调用 引 control_dependencies(.….) 函 数 将 RNN(output b) 的 最 后 一 个 输出 保存 到 prev_train_h 变量 
中 。 因 此 ， 在 下 一 次 迭代 中 ， 我 们 可 以 把 先前 保存 的 RNN 输出 作为 初始 状态 : 


# 确 保 在 计算 损失 之 前 ， 使 用 获得 的 最 后 一 个 RNN 输出 状态 来 更 新 状态 变量 
with tf.control dependencies([tf.assign(prev train h,output h)]): 
# 计 算 在 所 有 num_unrol1l 步 中 一 次 性 获得 的 所 有 预测 的 softmax 交叉 焙 
Inn_ loss = tf.reduce mean( 
tf.nn.softmax cross _ entropy with logits v2( 
logits=tf.concat (y_scores,0), 
labels=tf.concat (train labels,0) 
)) 


6.5.8 在 新 文本 片段 的 开头 重 置 状态 


我 们 还 需要 定义 隐藏 状态 重 置 操作 。 在 测试 时 生成 新 的 文本 块 之 前 ， 尤 其 需要 使 用 重 置 操作 ， 
否则 RNN 将 继续 产生 依赖 于 先前 产生 的 文本 ， 从 而 导致 高 度 相关 的 输出 。 若 是 如 此 ， 就 很 糟糕 ， 
因为 它 最 终 将 引起 RNN 一 遍 又 一 遍地 输出 相同 的 词 。 实 际 上 ， 在 训练 期 间 重 置 状 态 是 否 有 益 仍然 
存在 争议 。 不 过 ， 我 们 为 此 定义 了 TensorFlow 操作 : 


# 重 置 隐藏 状态 
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reset _ train h op = tf.assign(prev _ train h,tf.zeros( 
[batch size,hidden], 
dtype=tf.float32)) 

reset valid h op = tf.assign(prev valid h,tf.zeros( 
[1,hidden],dtype=tf.float32)) 


6.5.9 计算 验证 输出 


这 里 ， 类 似 于 训练 状态 、 损 失 和 预测 计算 ， 我 们 定义 了 用 于 验证 的 状态 、 损 失 和 预测 ; 
# 计 算 下 一 个 有 效 状态 ( 仅 1 步 ) 


next valid state = tf.nn.tanh(tf.matmul (valid dataset,W xh) + 
tf.matmul (prev_valid h,w hh)) 

# 使 用 RNN 的 状态 输出 计算 预测 
# 但 在 此 之 前 ， 将 RNN 的 最 新 状态 输出 分 配给 验证 阶段 的 状态 变量 
# 所 以 需要 确保 执行 valid_predictions 操作 以 更 新 验证 状态 
with tf.control dependencies([tf.assign(prev valid h,next valid_ 
state)]): 

valid scores = tf.matmul (next valid state,Ww hy) 


valid predictions = tf.nn.softmax (Valid scores) 


6.5.10 ”计算 梯度 和 优化 


由 于 已 经 定义 了 RNN 的 损失 ， 我 们 将 使 用 随机 梯度 方法 来 计算 梯度 并 使 用 它们 。 为 此 ， 我 们 
使 用 TBPTT。 在 这 种 方法 中 ， 我 们 将 随时 间 而 展开 RNN (类 似 于 我 们 如 何 随时 间 展 开 输入 ) 并 计 
算 梯 度 ， 然 后 回 滚 计算 的 梯度 以 更 新 RNN 的 权重 值 。 此 外 ， 我 们 将 使 用 AdamOptimizer， 这 是 一 
种 基于 动量 的 优化 方法 , 它 显 示 出 比 标准 随机 梯度 下 降 更 好 的 收敛 速度 .此 外 , 使 用 Adam Optimizer 
时 请 确保 使 用 较 小 的 学 习 率 (例如 介 于 0.001 和 0.0001 之 间 ) 。 我 们 还 将 使 用 梯度 裁剪 来 防止 任何 
潜在 的 梯度 爆炸 : 


rnn optimizer = tf.train.AdamOptimizer (learning rate=0.001) 


gradients, Vv = zip(*rnn optimizer.compute gradients (rnn loss)) 
gradients, _ = tf.clip by global norm(gradients, 5.0) 


rnn optimizer = rnn optimizer.apply gradients (zip(gradients, v)) 


6.6 输出 新 生成 的 文本 片段 


下 面 来 看 如 何 使 用 训练 模型 输出 新 文本 。 在 这 里 , 我 们 将 预测 一 个 词 ,将 该 词 用 作 下 一 个 输入 
并 预测 另 一 个 词 ， 以 这 种 方式 继续 进行 几 个 时 间 步 长 : 
# 获 取 测 试 阶段 隐藏 节点 的 先前 状态 
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prev test h = tf.Variable(tf.zeros([test batch size,hidden], 
dtype=tf.float32),name="'test h') 
# 测试 数据 集 
test dataset = tf.placeholder (tf.float32, shape=[test batch size, 
in sizel],name="'test dataset') 
# 计算 测试 数据 的 隐藏 输出 
next test state = tf.nn.tanh(tf.matmul (test dataset,W xh) + 
tf.matmul (prev test h,wW hh) 
) 
# 确保 每 次 进行 预测 时 都 更 新 测试 阶段 的 隐藏 状态 
with tf.control dependencies([tf.assign(prev test h,next test_ 
state) ]): 
test prediction = tf.nn.softmax(tf.matmul (next test state,W hy)) 

# 请 注意 ， 我 们 在 重 置 测试 状态 时 使 用 了 小 的 赋值 (一 些小 的 填充 (imputations) ) 
# 这 有 助 于 为 生成 的 文本 添加 更 多 变量 
reset test h op = tf.assign(prev test h,tf.truncated normall( 

[test batch size,hidden],stddev=0.01, 

dtype=tf.float32)) 


6.7 评估 RNN 的 文本 结果 输出 


这 里 我 们 将 显示 使 用 RNN 生成 的 文本 片段 ， 显 示 不 使 用 输入 展开 时 以 及 使 用 输入 展开 时 的 结 
果 。 
在 没有 输入 展开 的 情况 下 ， 在 10 个 epoch〔 即 训练 10 遍 ) 之 后 ， 得 到 以 下 结果 : 


him he had then the king then the king ferdinand the fait, and the king, and the 
king, and the king, and the king, and the king, and the king, and the king, and 
the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and the king, 
and the king, and the king, and the king, and the king, and the king, and... 


而 在 输入 展开 时 ， 在 10 个 epoch 后 将 获得 以 下 内 容 : 


... god grant that our sister may be here, and then we shall be free- 


when the maiden,who was standing behind the door watching, heard thatwish, 
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she came forth, and on this all the ravens were restored to their 
human form again. and they embraced and kissed each other, 

and went joyfully home whome, and wanted to eat and drink, and 
looked for their little plates and glasses. then said one after 
the other, who has eaten something from my plate. who has drunk 
out of my little glass. it was a human mouth. and when the 
seventh came to the bottom of the glass, the ring rolled against 
his mouth. then he looked at it, and saw that it was a ring 
belonging to his father and mother, and said, god grant that our 


sister may be here, and then we shall be free. .. 


从 这 些 结果 中 , 我 们 可 以 观察 到 一 点 , 与 每 次 处 理 单个 输入 相 比 , 它 实 际 上 有 助 于 随时 间 推 移 
进行 输入 展开 。 然 而 即使 展开 输入 ， 也 存在 一 些 语法 错误 和 罕见 的 拼写 错误 (这 是 可 以 接受 的 ， 因 
为 我 们 一 次 处 理 两 个 字符 ) 。 

另 一 点 值得 注意 的 是 ， 我 们 的 RNN 试图 通过 组 合 之 前 看 到 的 不 同 故事 来 产生 一 个 新 的 故事 。 
我 们 可 以 看 到 ,首先 谈论 的 是 乌鸦 ， 然 后 通过 谈论 盘子 和 有 人 从 盘子 里 吃 东西 ， 把 故事 转移 到 类 似 
于 金发 姑娘 和 三 只 熊 (Goldilocks and the Three Bears ) 的 故事 。 接 下 来 , 这 个 故事 引出 了 一 枚 戒指 。 

这 意味 着 RNN 已 经 学 会 了 组 合 故事 ， 并 想 出 新 的 故事 。 然 而 ， 我 们 可 以 通过 引入 更 好 的 学 习 
模型 (例如 LSTM) 和 更 好 的 搜索 技术 〈 例 如 集束 搜索 ) 来 进一步 改善 这 些 结果 ， 这 些 将 在 下 一 章 
中 介绍 。 


由 于 语言 的 复杂 性 和 RNN 较 小 的 表示 能 力 ， 在 整个 学 习 过 程 中 ,不 太 可 能 获得 与 本 文 所 
示 的 文本 一 样 良好 的 输出 。 因 此 ， 我 们 挑选 了 一 些 生成 的 文本 ， 以 表达 我 们 的 观点 。 


注意 ， 这 是 一 个 精心 挑选 的 文本 生成 示例 ， 仔 细 观 察 会 发 现 ， 随 着 时 间 的 推移 ， 如 果 继 续 多 次 
迭代 来 进行 预测 ，RNN 会 一 遍 又 一 遍地 重复 同一 块 文本 。 我 们 可 以 看 到 ， 这 在 前 面 的 文本 片段 中 
已 经 存在 ， 其 中 第 一 个 句子 与 最 后 一 个 句子 相同 。 随 着 数据 集 大 小 的 不 断 增 加 ,我 们 会 发 现 ， 这 个 
问题 会 变 得 更 加 突出 。 这 是 由 于 梯度 消失 问题 导致 我 们 的 RNN 的 记忆 人 能力 不 足 引 起 的 。 而 为 了 减 
少 这 种 影响 ， 在 6.9 和 6.10 节 中 ， 我 们 将 讨论 RNN 的 一 种 变 体 一 一 具有 上 下 文 特征 的 RNN 
(CRNN-CF) ， 可 以 减少 这 种 影响 。 


6.8 困惑 度 一 一 文本 生成 结果 质量 的 度量 


在 信息 论 中 ， 困 惑 度 (Permplexity) 用 来 度量 一 个 概率 分 布 模型 或 概率 模型 预测 样本 的 好 坏 程 
度 , 也 可 以 用 来 比较 两 个 概率 分 布 或 概率 模型 。 低 困惑 度 的 概率 分 布 模型 或 概率 模型 能 更 好 地 预测 
样本 。 关 于 困惑 度 的 更 多 信息 ， 读 者 可 以 查看 维基 百科 给 出 的 解释 (https://en.wikipedia.org/wiki/ 
Perplexity) 。 

我 们 的 工作 不 仅仅 是 利用 模型 生成 新 的 文本 , 还 需要 利用 一 个 方法 来 衡量 生成 文本 的 质量 .一 
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种 方法 是 测量 RNN 遇 到 给 定 输入 的 输出 会 产生 多 大 程度 的 困惑 程度 (Perplexed， 或 者 惊讶 程度 
(Surprised) ) 。 也 就 是 说 ， 如 果 输 入 xi 及 其 对 应 的 输出 太 的 交叉 和 损 失 是 !(Cxz ， 姑 )， 那 么 困惑 度 
将 是 : 
p(xi yi) = ee) 
使 用 这 个 方法 可 以 计算 大 小 为 N 的 训练 数据 集 的 平均 困惑 ， 具 体 如 下 : 
p (Derain) = (Y/N)YN-1p(xi yi) 

在 图 6-14 中 ， 我 们 展示 了 训练 困惑 度 和 验证 困惑 度 随 时 间 的 变化 情况 。 我 们 可 以 看 到 ， 训 练 
难度 随 着 时 间 的 推移 而 稳步 下 降 ， 其 中 验证 困惑 度 则 呈 显 著 波动 状态 。 其 实 这 是 可 以 理解 的 ， 因 为 
在 验证 困惑 度 中 ， 本 质 上 评估 的 是 RNN 基于 我 们 对 训练 数据 的 学 习 来 预测 不 可 见 文 本 的 能 力 。 由 
于 语言 任务 很 难 建 模 ， 因 此 这 是 一 个 非常 困难 的 任务 ， 出 现 这 些 波 动 是 很 正常 的 事情 。 


训练 数据 的 困惑 度 验证 数据 的 困惑 度 
了 es ee 


图 6-14 ”训练 数据 和 验证 数据 的 困惑 度 随 时 间 变化 的 示意 图 
这 里 有 一 种 改善 结果 的 方法 ， 就 是 向 RNN 增加 更 多 的 隐藏 层 ， 因 为 更 深层 次 的 模型 通常 可 以 
提供 更 好 的 结果 。 我 们 在 ch6 文件 夹 中 的 6_ mn_language_bigram_mnultilayer.ipynb 中 实现 了 一 个 三 
层 RNN， 读 者 可 以 自行 查看 。 
现在 我 们 来 看 一 个 问题 ， 是 否 有 更 好 的 RNN 的 变 体会 工作 得 更 好 呢 ? 例如 ， 有 没有 RNN 的 
变 体能 更 有 效 地 解决 梯度 消失 的 问题 ? 在 下 一 节 中 ， 我 们 来 讨论 一 个 称 为 RNN-CF 的 变 体 。 


6.9 具有 上 下 文 特征 的 循环 神经 网 络 
RNN-CF 


前 面 我 们 讨论 了 训练 简单 RNN 的 两 个 重要 挑战 : 梯度 爆炸 和 梯度 消失 。 我 们 知道 可 以 用 一 个 
简单 的 策略 来 防止 梯度 爆炸 ， 例 如 梯度 裁剪 ， 从 而 实现 更 稳定 的 训练 。 然 而 ， 对 于 梯度 消失 问题 而 
言 ， 还 需要 更 加 努力 地 去 做 ， 因 为 没有 简单 的 缩放 /裁剪 机 制 可 以 解决 梯度 消失 问题 ， 就 像 我 们 对 
梯度 爆炸 所 做 的 那样 。 因 此 ， 我 们 需要 修改 RNN 本 身 的 结构 ， 明 确 地 赋予 它 记 忆 数 据 序列 中 较 长 
模式 的 能 力 。Tomas Mikolov 等 人 于 2015 年 在 其 文章 《Learning Longer Memory in Recurrent Neural 
Nerworks》 (International Conference on Learning Representations) 中 提出 了 RNN-CF， 是 标准 RNN 
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修改 后 的 一 种 模型 ， 能 够 帮助 RNN 更 长 时 间 地 记 住 数 据 序 列 中 较 长 的 模式 。 

RNN-CF 通过 引入 新 的 状态 和 一 组 新 的 前 向 和 循环 连接 来 减少 梯度 消失 。 换言之 ,与 仅 具有 单 
个 状态 向 量 的 标准 RNN 相 比 ，RNN-CF 将 具有 两 个 状态 向 量 。 其 主要 思想 是 ， 一 个 状态 向 量变 化 
缓慢 ， 用 于 保留 较 长 的 记忆 ， 而 另 一 个 状态 向 量 可 以 快速 变化 ， 用 于 短期 记忆 工作 。 


6.9.1 RNN-CF 的 技术 说 明 


在 这 里 , 我 们 用 几 个 参数 来 调整 传统 的 RNN， 以 帮助 维持 更 长 时 间 的 记忆 。 除 了 标准 RNN 模 
型 中 存在 的 常规 状态 向 量 之 外 ,这 些 调整 还 包括 引入 新 的 状态 向 量 。 因此 , 还 引入 了 几 个 前 向 和 循 
环 的 权重 值 集 。 在 抽象 层次 上 ， 图 6-15 给 出 了 RNN 与 RNN-CF 比较 的 示意 图 。 


(x) (x) 


6-15 RNN 与 RNN-CF 比较 的 示意 图 


从 图 6-15 中 可 以 看 到 ,与 传统 的 RNN 相 比 ，RNN-CF 具有 一 些 额外 的 权重 值 。 现 在 让 我 们 仔 
细 看 看 这 些 图 层 和 权重 值 是 做 什么 的 。 
首先 ， 输 入 由 两 个 隐藏 层 接收 ， 就 像 在 RNN 中 发 现 的 传统 隐藏 层 一 样 。 我 们 已 经 看 到 ， 仅 使 
用 这 个 隐藏 层 在 保留 长 期 记忆 方面 效果 不 佳 。 但 是 , 我 们 可 以 通过 强制 循环 矩阵 接近 同一 性 并 消除 
非 线性 来 强制 隐藏 层 更 长 时 间 地 保留 记忆 。 当 循 环 矩 阵 接近 同一 性 而 没有 非 线性 时 , 发 生 在 h 上 的 
任何 变化 都 应 该 始终 来 自 于 输入 的 变化 。 换 句 话说 ,先前 的 状态 对 改变 当前 状态 的 影响 较 小 。 这 导 
致 状态 变化 慢 于 密集 的 权重 值 矩 阵 和 非 线性 。 因 此 ， 这 种 状态 有 助 于 更 长 时 间 地 保留 记忆 。 支持 循 
环 矩 阵 接近 1 的 另 一 个 原因 是 , 当权 重 值 接近 1 时 , 出 现在 推导 中 的 项 如 we- 3 将 不 会 消失 或 爆炸 。 
但 是 ， 如 果 我 们 仅 使 用 此 而 没有 非 线 性 的 隐藏 层 的 话 ， 梯 度 就 永远 不 会 减少 。 在 这 里 ， 对 于 梯度 减 
小 的 影响 ， 旧 的 输入 应 该 远 小 于 最 近 的 输入 。 然 后 ， 我 们 需要 通过 时 间 将 梯度 传播 到 输入 的 起 始 位 
置 ， 但 这 样 的 成 本 很 高 。 因 此 ， 为 了 充分 利用 这 两 个 方面 ， 我 们 保留 了 这 两 个 层 : 可 以 快速 变化 的 
标准 RNN 状态 层 (he), 以 及 变化 更 慢 的 上 下 文 特征 层 (se)。 这 个 新 层 称 为 上 下 文 层 (Context Layer)， 
是 一 个 有 助 于 保持 长 期 记忆 的 层 。RNN-CF 的 更 新 规则 如 下 (这 里 我 们 没有 看 到 s(e_1) 被 一 个 单位 
矩阵 所 乘 ， 是 因为 [ste_y= sc_D) 。 
st = (1 — ao)Bx + as 
h. = o(Pst + Axt + Rhee_1)) 
yi: = sof tmax(Uh: 十 sb 
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与 RNN-CF 相关 的 符号 总 结 在 表 6-2 中 。 


表 6-2 RNN-CF 相关 的 符号 列表 
具体 含义 
当前 的 输入 
当前 的 状态 向 量 
当前 的 输出 
当前 上 下 文 的 特征 向 量 
Xt 和 ht 之 间 的 权重 矩阵 
Xt 和 st 之 间 的 权重 矩阵 
心 的 循环 连接 

控制 se_D 对 st 影响 的 常量 
h 和 s, 之 间 的 权重 矩阵 
h 和 yt 之 间 的 权重 矩阵 
st 和 yt 之 间 的 权重 矩阵 


6.9.2 RNN-CF 的 实现 


前 面 我 们 已 经 讨论 了 RNN-CF 包含 的 额外 的 状态 向 量 以 及 它 如 何 帮助 防止 梯度 消失 。 这 里 我 
们 将 讨论 RNN-CF 的 实现 。 除 了 传统 RNN 实现 中 的 隐藏 层 he) 、Wixn〈 表 中 的 A，、Whn〈 表 
中 的 R) 和 Wny〈 表 中 的 U) 之 外 ,现在 还 需要 另外 三 组 权重 值 ， 即 我 们 将 定义 B、P 和 V。 此 外 ， 
我 们 将 定义 一 个 新 变量 来 包含 s:(Hidden_Context， 不 包括 he )。 


6.9.3 定义 RNN-CF 超 参 数 


首先 我 们 将 定义 超 参数 , 包括 之 前 定义 的 超 参 数 和 新 参数 。 一 个 新 的 超 参数 定义 了 上 下 文 特征 
中 的 神经 元 数量 sc， 其 中 alpha 表示 等 式 中 的 a。 


层 


hidden context = 64 
alpha = 0.9 


6.9.4 定义 输入 和 输出 占 位 符 

正如 我 们 对 标准 RNN 所 做 的 那样 ， 定 义 占 位 符 以 包含 训练 输入 和 输出 、 验 证 输入 和 输出 以 及 
测试 输入 : 

# 训练 数据 集 


train dataset, train labels = [],[] 


for ui in range (num unroll): 
train dataset.append (tf.placeholder (tf.float32, 


shape=[batch size,in size]， 
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name="'train dataset %d'%ui)) 
train labels.append (tf.placeholder (tf.float32, 
shape=[batch size,out sizel], 


name="'train labels %d'%ui)) 


# 验证 数据 集 


valid dataset 


= tf.placeholder (tf.float32, 
shape=[l1,in sizel],name='valid dataset') 
valid labels = tf.placeholder (tf.float32, 
shape=[1,out size],name='valid labels') 
# 测试 数据 集 
test dataset = tf.placeholder (tf.float32, 
shape=[test batch size,in sizel], 


name="'save test dataset') 


6.9.5 定义 RNN-CF 的 权重 值 


我 们 将 定义 RNN-CF 计算 所 需 的 权重 值 。 正 如 在 符号 表 中 看 到 的 那样 ， 这 里 RNN-CF 计算 需 
要 6 组 权重 值 (A、B、R、P、U 和 V) 。 而 在 传统 的 RNN 计算 中 ， 只 需要 三 组 权重 值 就 可 以 了 。 


# 输入 层 和 隐藏 层 (h) 之 间 的 权重 值 

RAR = tf.Variable(tf.truncated normal([in size,hidden], 
stddev=0.02,dtype=tf.float32),name='W_ xh') 

B = tf.Variable (tf.truncated normal([in size,hidden context], 
stddev=0.02,dtype=tf.float32),name='W_ xs') 


隐藏 层 (h) 间 的 权重 值 
= tf.Variable (tf.truncated normal([hidden,hidden], 

stddev=0.02,dtype=tf.float32),name='W_hh') 
P = tf.Variable(tf.truncated normal([hidden context,hidden], 


男 


stddev=0.02,dtype=tf.float32),name='W_ss') 


* 


隐藏 层 (h) 和 输出 层 〈Y) 之 间 的 权重 值 

= tf.Variable (tf.truncated normal([hidden,out size], 
stddev=0.02,dtype=tf.float32),name='W_hy') 

V= tf.Variable(tf.truncated normal([hidden context,out sizel],stddev=0.02, 

dtype=tf.float32), 


[= 


name='W_ sy') 
# 训练 数据 的 状态 变量 
prev train h = tf.Variable(tf.zeros([batch size,hidden],dtype=tf.float32), 


name='train h',trainable=False) 


prev train s = tf.Variable(tf.zeros([batch size,hidden context], 
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dtype=tf.float32),name='train s', 
trainable=False) 


# 验证 数据 的 状态 变量 
prev valid h = tf.Variable (tf.zeros([l,hidden],dtype=tf.float32), 
name="'valid h',trainable=False) 

prev valid s = tf.Variable (tf.zeros([1,hidden context],dtype=tf.float32), 
name="'valid s',trainable=False) 

# ”测试 数据 的 状态 变量 

prev test h = tf.Variable(tf.zeros([test batch size,hidden], 

dtype=tf.float32), 
test h’) 
prev test s = tf.Variable(tf.zeros([test batch size,hidden context], 
dtype=tf.float32),name='test s') 


name= 


6.9.6 ”用 于 维护 隐藏 层 和 上 下 文 状态 的 变量 和 操作 


我 们 将 定义 RNN-CF 的 状态 变量 。 除 了 传统 RNN 中 的 心 之 外 ， 我 们 还 需要 对 上 下 文 特征 有 一 
个 单独 的 状态 ， 即 set。 总 之 ， 我 们 将 有 6 个 状态 变量 。 其 中 ， 三 个 状态 变量 在 训练 、 验 证 和 测试 期 


间 维 持 状态 向 量 心 ， 而 另外 三 个 状态 变量 在 训练 、 验 证 和 测试 期 间 维持 状态 向 量 st: 
# 训练 数据 的 状态 变量 


prev train h = tf.Variable(tf.zeros([batch size,hidden], 
dtype=tf.float32), 
name='train h',trainable=False) 
prev train s = tf.Variable(tf.zeros([batch size,hidden context], 
dtype=tf.float32),name='train s', 
trainable=False) 


# 验证 数据 的 状态 变量 
prev valid h = tf.Variable (tf.zeros([l,hidden],dtype=tf.float32), 
name='valid h',trainable=False) 
prev valid s = tf.Variable (tf.zeros([l,hidden context], 
dtype=tf.float32), 
name="'valid s',trainable=False) 
# 测试 数据 的 状态 变量 
prev test h = tf.Variable(tf.zeros([test batch size,hidden], 
dtype=tf.float32), 
name="'test _h') 
prev test s = tf.Variable(tf.zeros([test batch size,hidden context], 


dtype=tf .float32),nam 


"ot sr} 


接 下 来 ， 我 们 定义 所 需 的 重 置 操作 ， 以 重 置 状 态 : 
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reset prev _ train h op tf.assign(prev train h,tf.zeros([batch size, 
hidden], dtype=tf.float32)) 
reset prev train s op = tf.assign(prev train s,tf.zeros([batch size, 


hidden context],dtype=tf.float32)) 


reset valid h op = tf.assign(prev valid h,tf.zeros([l,hidden], 
dtype=tf.float32)) 
reset valid s op = tf.assign(prev valid s,tf.zeros([l,hidden context], 
dtype=tf.float32)) 
# 加 入 噪声 来 估算 测试 状态 
reset test h op = tf.assign(prev test h,tf.truncated normal( 
[test batch size,hidden], 
stddev=0.01, 
dtype=tf.float32)) 
reset test s op = tf.assign(prev test s,tf.truncated normal( 
[test batch size,hidden context], 
stddev=0.01,dtype=tf.float32)) 


6.9.7 计算 输出 


在 定义 了 所 有 输入 、 变 量 和 状态 向 量 之 后 ， 现 在 根据 前 面 提 到 的 方程 式 来 计算 RNN-CF 的 输 
出 。 首 先 ， 将 状态 向 量 初始 化 为 零 。 其 次 ， 将 针对 一 组 固定 的 时 间 步 长 (根据 BPTT 的 需要 ) 展开 
我 们 的 输入 ， 并 分 别 计算 每 个 展开 步骤 的 非 标准 化 输出 〈 有 时 称 为 logits 或 得 分 ) 。 接 着 ， 将 连接 
属于 每 个 展开 时 间 步 长 的 所 有 y 值 ,最 后 计算 所 有 这 些 项 的 平均 损失 , 并 将 其 与 真实 标签 进行 比较 : 


# 训练 得 分 〈 非 标准 化 ) 值 和 预测 〈 标 准 化 ? 


y_scores, y predictions = [],[] 


# 这 些 将 在 num_unroll 计算 步骤 中 迭代 使 用 
next_h_state = prev train h 
next s_ state = prev train s 


# 在 num_unroll 步 数 中 为 每 个 步 长 添加 计算 的 RNN 输出 


next_h_states_unrolled，next_s_states_unrolled = [],[] 


# 为 num_unroll 步 数 计算 RNN 的 输出 〈 根 据 截断 的 BPTT 的 要 求 ) 
for ui in range (num unroll): 
next h state = tf.nn.tanh( 
tf.matmul (tf.concat ([train dataset [uil],prev train h, 
prev train s],1), 
tf.concat ([A,R,P],0)) 
) 
next s state = (l-alpha)*tf.matmul (train dataset[ui],B) + 
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alpha * next s state 
next h states unrolled.append (next h state) 


next s states unrolled.append (next s state) 


# 获 取 为 num_unrol1 步 生成 的 所 有 RNN 输出 的 分 数 和 预测 
Y_scores = [tf.matmul (next h states unrolled[ui],U) + 
tf.matmul (next s _ states unrolled[uil],V) 
for ui in range (num unroll) ] 
Y_predictions = [tf.nn.softmax(y scores[ui]) for ui in range (num 


unroll) 1] 


6.9.8 计算 损失 


本 节 定义 有 关 RNN-CF 的 损失 的 计算 。 此 操作 与 之 前 我 们 为 标准 RNN 定义 的 操作 相同 ， 如 下 
所 示 : 
# 确保 在 计算 损失 之 前 ， 使 用 我 们 获得 的 最 后 一 个 RNN 的 输出 状态 来 更 新 状态 变量 


with tf.control dependencies([tf.assign(prev train s, next s state), 
tf.assign(prev train h,next h state)]): 
rnn loss = tf.reduce mean( 
tf.nn.softmax cross _ entropy with logits v2( 
logits=tf.concat (y_scores,0), 
labels=tf.concat (train labels,0) )) 


6.9.9 计算 验证 输出 


与 在 训练 时 计算 的 输出 类 似 , 我 们 这 里 计算 验证 输入 的 输出 。 但是, 我们 不 会 像 处 理 训 练 数据 
那样 展开 输入 ， 因 为 在 预测 期 间 不 需要 展开 : 


# 验证 数据 相关 的 推理 逻辑 (非常 类 似 训练 推理 逻辑 ) 
# 计算 下 一 个 验证 状态 ( 仅 1 步 ) 
next valid s state = (l-alpha) * tf.matmul (valid dataset,B) + 
alpha * prev valid s 
next valid h state = tf.nn.tanh(tf.matmul (valid dataset,A) + 
tf.matmul (prev valid s, P) + 
tf.matmul (prev_valid h,R)) 


# 使 用 RNN 的 状态 输出 计算 预测 

# 但 在 此 之 前 ， 将 RNN 的 最 新 状态 输出 分 配给 验证 阶段 的 状态 变量 

# 因此 ， 需 要 确保 执行 rnn_valid_loss 操作 以 更 新 验证 状态 

with tf.control dependencies([tf.assign(prev valid s, next _ valid s state), 


tf.assign(prev valid h,next valid h state)]): 
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valid scores = tf.matmul (prev valid h, U) + tf-matmul (prev valid s, V) 


Valid predictions = tf.nn.softmax(valid scores) 


6.9.10 ”计算 测试 输出 


我 们 现在 可 以 定义 输出 计算 以 生成 新 的 测试 数据 : 


# 测试 数据 相关 的 推理 逻辑 
# 计 算 测试 数据 的 隐藏 输出 


next test s = (l-alpha)*tf.matmul (test dataset,B)+ alpha*prev test s 


next _ test h = tf.nn.tanh( 
tf.matmul (test dataset,A) + tf.matmul (prev test s,P) + 


tf.matmul (prev test h, R) ) 
# 确保 每 次 进行 预测 时 都 已 更 新 了 测试 阶段 的 隐藏 状态 
with tf.control dependencies([tf.assign(prev test s,next test s), 
tf.assign(prev test h,next test h)]): 


test prediction = tf.nn.softmax( 
tf.matmul (prev_ test h,U) + tf.matmul (prev_ test_s,V) 


6.9.11 计算 梯度 和 优化 
下 面 使 用 优化 器 来 最 小 化 损失 ， 这 与 之 前 对 于 传统 RNN 所 做 的 方法 相同 : 


Inn_optimizer = tf.train.AdamOptimizer (learning rate=.001) 
gradients, Vv = zip(*rnn optimizer.compute gradients (rnn loss)) 
= tf.clip by global norm(gradients, 5.0) 


gradients, _ = 
rnn _ optimizer = rnn optimizer.apply gradients (zip(gradients, v)) 


6.10 使 用 RNN-CF 生成 的 文本 


这 里 我 们 将 对 RNN 和 RNN-CF 生成 的 文本 进行 定性 和 定量 的 比较 。 首 先 比 较 使 用 20 个 训练 
文档 获得 的 结果 。 之 后 将 训练 文档 的 数量 提高 到 100， 以 查看 RNN 和 RNN-CF 是 否 能 够 合并 大 量 


数据 ， 以 便 输出 质量 更 好 的 文本 。 
首先 ， 对 于 使 用 20 个 训练 文档 ，RNN-CF 生成 的 文本 如 下 : 


the king's daughter, who had 
no more excuses left to make. they cut the could not off, and her his 
first rays of life in the garden, 


and was amazed to see with the showed to the grown mighted and the 
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seart the answer to star's brothers, and seeking the golden apple, we 
flew over the tree to the seadow where her 


heard that he could not have discome. 


emptied him by him. she himself 'well i ston the fire struck it was 
and said the youth, farm of them into the showed to shudder, but here 
and said the fire himself 'if i could but the youth, and thought that 
is that shudder.' 

'then, said he said '1 will by you are you, you.' then the king, who 
you are your 

wedding-mantle. you are you are you 

bird in wretch me. ah. what man caller streep them if i will bed. 

the youth 

begged for a hearing, and said 'if you will below in you to be your 
wedding-mantle.' 'what.' said he, 'i shall said 'if i hall by you are you 


bidden it i could not have 


就 文本 的 质量 而 言 ， 与 标准 的 RNN 相 比 ,我 们 看 不 到 太 大 的 差别 。 至 于 为 什么 RNN-CF 没有 
比 标 准 RNN 表现 得 更 好 , Mikolov 等 人 在 他 们 的 论文 《Learning Longer Memory in Recurrent Neural 
Nerwork》 中 提 到 : “ 当 标 准 隐藏 单元 的 数量 足以 捕获 短期 模式 时 ， 学 习 自 循环 权重 值 似 乎 就 不 再 

因此 ， 如 果 隐 藏 单元 的 数量 足够 大 ，RNN-CF 与 标准 RNN 相 比 就 没有 明显 的 优势 。 这 可 能 就 
是 我 们 观察 到 这 一 点 的 原因 所 在 。 在 代码 中 ， 我 们 只 使 用 了 64 个 隐藏 的 神经 元 和 一 个 相对 较 小 的 
语料库 ， 它 足以 表示 一 个 故事 ， 达 到 RNN 所 能 达到 的 水 平 。 

我 们 再 来 看 看 增加 数据 量 是 否 真 的 有 助 于 RNN-CF 执行 得 更 好 。 对 于 这 里 的 示例 ， 在 训练 了 
大 约 50 个 epoch 之 后 ， 我 们 将 把 文档 数量 增加 到 100 个 。 

以 下 是 标准 RNN 的 输出 : 


they were their dearest and she she told him to stop crying to the 
king's son they were their dearest and she she told him to stop crying 
to the king's son they were their dearest and she she told him to stop 
crying to the king's son they were their dearest and she she told him 
to stop crying to the king's son they were their dearest and she she 
told him to stop 


我 们 可 以 看 到 ， 与 使 用 较 少 数据 时 的 表现 相 比 ，RNN 变 得 更 糟 了 。 数 据 量 大 和 模型 容量 不 足 
对 标准 RNN 有 不 利 影响 ， 导 致 它们 输出 低 质量 的 文本 。 
以 下 是 RNN-CF 的 输出 。 我 们 可 以 看 到 ， 就 变化 而 言 ，RNN-CF 比 标准 RNN 做 得 好 得 多 : 


then they could be the world. not was now from the first for a set 
out of his pocket, what is the world. then they were all they were 
forest, and the never yet not rething, and took the 


children in themselver to peard, and then the first her. then the was 


188 | TensorFlow 与 自然 语言 处 理应 用 


in the first, and that he was to the first, and that he was to the 

kitchen, and said, and had took the 

children in the mountain, and they were hansel of the fire, gretel of 

they were all the fire, goggle-eyes and all in the moster. when she 

had took the changeling the little elves, and now ran into them, and she bridge 
away with the witch form, 

and their father's daughter was that had neep himselver in the horse, 

and now they lived them himselver to them, and they were am the 

marriage was all they were and all of the marriage was anger of the 

forest, and the manikin was laughing, who had said they had not know, 

and took the children in themselver to themselver and they lived them himselver 
to them 


因此 ， 当 数据 充足 时 ，RNN-CF 模型 实际 上 优 于 标准 RNN 模型 。 我 们 将 为 这 两 个 模型 绘制 随 
时 间 变 化 的 训练 和 验证 的 困惑 度 。 正 如 我 们 所 看 到 的 ， 在 训练 困惑 度 方面 ，RNN-CF 和 标准 RNN 
没有 显著 差异 。 最 后 ， 在 验证 困惑 度 图 (参见 图 6-16) 中 可 以 看 到 ， 与 标准 RNN 相 比 ，RNN-CF 
显示 了 更 少 的 波动 。 
训练 数据 的 困惑 度 验证 数据 的 困惑 度 


' ---- RNN ---- RNN 
' — RNN-CF . 
1 
， 


6-16 RNN、RNN-CE 的 训练 数据 困惑 度 和 验证 数据 困惑 度 示意 图 
在 这 里 可 以 得 出 一 个 重要 的 结论 , 当 数据 量 较 小 时 , 标准 RNN 可 能 是 过 拟 合 数据 。 也 就 是 说 ， 
RNN 可 能 按 原样 记忆 数据 ， 而 不 是 试图 学 习 数 据 中 存在 的 更 常见 的 模式 。 当 RNN 被 大 量 数据 淹没 
并 且 被 训练 更 长 时 间 〈 比 如 大 约 训 练 50 遍 ， 即 50 个 epoch) 时 ， 这 种 弱点 变 得 更 加 突出 。 产 生 的 
文本 质量 下 降 ， 验 证 困惑 度 的 波动 也 比较 大 。 而 RNN-CF 对 小 量 数据 和 大 量 数据 均 表 现 出 一 定 的 
一 致 性 。 


6.11 总 结 
在 本 章 中 ， 我 们 首先 通过 计算 图 及 其 展开 知道 了 每 个 节点 表示 在 某 个 时 刻 t 的 状态 ， 函 数 f 


可 以 将 t 处 的 状态 映射 到 t + 1 处 的 状态 ， 而 在 有 外 部 信号 x 驱动 的 情况 下 ， 涉 及 循环 的 任何 函 
数 本 质 上 可 以 被 认为 是 一 种 循环 神经 网 络 ， 其 中 循环 神经 网 络 隐藏 单元 的 值 可 以 被 定义 〈 通 过 式 
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(6.2) ) ， 而 且 我 们 对 于 展开 图 和 循环 图 做 了 细 分 层面 的 解读 。 

其 次 ， 对 于 RNN 的 解读 部 分 ， 我 们 详细 介绍 了 序列 数据 模型 和 数学 层面 的 内 容 ， 通 过 相关 公 
式 和 图 示 对 于 RNN 的 内 在 机 制 逐 步 进行 了 展开 和 剖析 ， 并 在 数学 层面 进行 了 详细 解读 。 

接着 ， 我 们 介绍 了 通过 时 间 的 反 向 传播 算法 (BPTT) 。 在 这 部 分 ， 我 们 认识 了 反 向 传播 的 工 
作 原 理 、 为 什么 不 能 对 RNN 使 用 标准 反 向 传播 ` 如 何 使 用 BPTT 对 数据 进行 RNN 训练 、 截 断 BPTT 
和 了 BPTT 的 局 限 性 等 , 解读 了 其 局 限 性 中 的 常见 问题 : 梯度 下 降 和 梯度 爆炸 ， 并 给 出 了 与 之 对 应 的 
解决 方法 。 

然后 , 我 们 继续 研究 RNN 的 实际 应 用 ,讨论 了 4 种 主要 类 型 的 RNN。 一 对 一 结构 用 于 诸如 文 
本 生成 、 场 景 分 类 和 视频 帧 标记 之 类 的 任务 。 多 对 一 结构 用 于 情感 分 析 ， 逐 字 处 理 句子 /短语 《与 
单一 处 理 完 整 句子 相 比 ) 。 一 对 多 结构 在 图 像 字幕 任务 中 很 常见 ， 将 单个 图 像 映射 到 描述 图 像 的 任 
意 长 句子 短语 。 利 用 多 对 多 结构 进行 机 器 翻译 任务 。 

接 下 来 ， 我 们 介绍 了 一 个 有 趣 的 RNN 应 用 一 一 文本 生成 。 我 们 使 用 童话 语料库 来 训练 RNN， 
特别 是 将 故事 中 的 文本 打破 为 bigrams (一 个 二 元 组 包含 两 个 字符 )。 我 们 通过 给 出 一 组 从 故事 中 
选择 的 二 元 组 作为 输入 和 随后 的 双 字母 〈 来 自 输入 ) 作为 输出 来 训练 RNN。 然 后 通过 最 大 化 正确 
预测 下 一 个 二 元 组 的 准确 性 来 优化 RNN。 按 照 这 个 程序 ,我 们 要 求 RNN 生成 一 个 不 同 的 故事 ， 对 
生成 的 结果 做 了 两 个 重要 的 观察 : 


@ ”实际 上 ， 随 着 时 间 的 推 黎 ， 展 开 输 入 有 助 于 更 长 时 间 地 保持 记忆 。 
@@ ”即使 展开 ，RNN 也 只 能 存储 有 限 数量 的 长 期 记忆 。 


因此 ,我 们 研究 了 一 种 能 够 捕获 更 长 记忆 的 RNN 变 体 , 被 称 为 RNN-CF。 RNN-CF 具有 两 个 
不 同 的 层 : 隐藏 层 (在 简单 RNN 中 找到 的 传统 隐藏 层 ) 和 上 下 文 层 (用 于 持久 记忆 、 长 期 记忆 ) 。 
我 们 看 到 ， 当 与 小 数据 集 一 起 使 用 时 ， 使 用 这 个 额外 的 上 下 文 层 并 没有 明显 的 帮助 ， 因 为 在 RNN 
中 有 一 个 相当 复杂 的 隐藏 层 ， 但 是 当 使 用 更 多 数据 时 ， 它 产生 了 稍 好 的 结果 。 

在 下 一 章 中 ， 我 们 将 讨论 一 种 更 强大 的 RNN 模型 ， 被 称 为 长 短期 记忆 (LSTM) 网 络 ， 可 进 
一 步 减少 梯度 消失 的 不 利 影响 ， 从 而 产生 更 好 的 结果 。 


长 短期 记忆 


在 上 一 章 中 ， 我 们 介绍 了 循环 神经 网 络 ， 了 解 到 在 训练 RNN 时 可 能 会 遇 到 梯度 不 稳定 〈 消 失 
和 爆炸 ) 的 问题 ， 导 致 我 们 的 神经 网 络 学 到 的 东西 不 符合 预期 要 求 。 然 而 幸运 的 是 ,我 们 可 以 引入 
一 个 称 为 长 短期 记忆 (Long Short-Term Memory，LSTM) 的 块 (Block， 也 称 为 Cell， 即 “细胞 ”) 
进入 RNN 中 .LSTM 由 Sepp Hochreiter 和 JiirgenSchmidhuber 于 1997 年 提出 ,并 于 2000 年 由 Felix 
Gers 的 团队 进行 了 改进 ， 它 属于 RNN 的 一 种 改进 类 型 ， 非 常 适合 处 理 时 间 序 列 数据 。 这 种 类 型 的 
神经 网 络 最 近 在 深度 学 习 的 背景 下 被 重新 发 现 , 因为 它 没有 梯度 消失 的 问题 , 并 提供 了 出 色 的 结果 
和 性 能 。 基 于 LSTM 的 网 络 是 时 间 序列 预测 和 分 类 的 理想 选择 ， 并 且 正 在 取代 许多 传统 的 深度 学 
习 方法 。 

由 于 梯度 消失 会 阻止 模型 学 习 的 长 期 依赖 性 , 而 在 时 间 序列 中 的 重要 事件 之 问 可 能 存在 未 知 持 
续 时 间 的 滞后 , 面 对 这 种 困境 , 我 们 对 LSTM 进行 了 精心 设计 , 能 够 避免 之 前 的 梯度 不 稳定 问题 ， 
使 得 LSTM 能 够 存储 比 普通 RNN 更 长 的 记忆 ( 数 百 个 时 间 步 长 》。 在 模型 训练 中 ，RNN 仅 保 持 
单个 隐藏 状态 ， 而 LSTM 具有 更 多 的 参数 ， 可 以 做 到 该 存储 的 存储 、 该 丢弃 的 丢弃 ， 而 RNN 却 无 
法 决定 存储 哪些 信息 以 及 丢弃 哪些 信息 , 因为 在 每 个 训练 步骤 中 都 强制 要 更 新 隐藏 状态 。 对 于 间 阶 
长 度 的 相对 不 敏感 性 是 LSTM 相对 于 RNN、 隐 马尔 可 夫 模型 和 其 他 序列 学 习 模型 在 许多 应 用 中 的 
优势 所 在 ， 这 种 优势 尤其 在 海量 数据 样本 的 可 用 性 上 已 经 得 到 很 好 的 验证 , 在 许多 序列 任务 (例如 
语言 建 模 、 股 票 预测 、 机 器 翻译 等 ) 上 都 有 优异 的 表现 。 

本 章 中 将 首先 介绍 LSTM 对 长 期 依赖 性 如 何 进行 存储 (或 称 为 记忆 ，〉。 其 次 ， 对 于 LSTM 的 
数学 基础 框架 进行 解读 ， 并 用 一 个 小 示例 加 以 细 化 解释 。 然 后 介绍 专门 为 改进 标准 LSTM 产生 预 
测 而 引入 的 几 种 技术 ， 还 将 介绍 双向 LSTM 模型 。 最 后 讨论 LSTM 的 两 个 著名 变 体 : Peephole 连 
接 和 门 控 循 环 单元 (GRU) 。 
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7.1 LSTM 简 述 


LSTM 本 质 上 是 一 种 更 高 级 的 RNN， 可 以 学 习 长 期 依赖 信息 ， 在 解决 很 多 问题 上 都 表现 了 优 
异 的 性 能 ， 这 与 它 的 内 部 结构 有 很 大 的 关系 ， 其 整体 结构 图 如 图 7-1 所 示 。 


block output Ed 


Legend 
LSTM block 2 A 一 一 unweighted connection 


Weighted connection 
pp connection with time-lag 
® branchingpoint 


© muiplication 


由 sum over all inputs 
gate activation function 
(always sigmoid) 
input activation function 
(usually tanh) 
output activation function 
(usually tanh) 


图 7-1 LSTM 整体 结构 


由 图 7-1 可 知 ，LSTM 的 整体 结构 如 下 : 

(1) 5 个 主要 构件 ， 分 别 如 下 。 

@@ 细 胞 状态 (Cell State) : LSTM 细胞 的 内 部 状态 〈 记 忆 ) 。 

加 隐藏 状态 〈Hidden State) : 用 于 计算 预测 的 外 部 隐藏 状态 。 

@ 输 入 门 〈Input Gate) : 决定 了 当前 输入 被 读 入 细胞 状态 的 程度 。 

图 遗忘 门 (Forget Gate) : 确定 了 将 先前 的 细胞 状态 发 送 到 当前 细胞 状态 的 程度 。 
回答 出 门 Output Gate) : 决定 了 将 多 少 细胞 状态 输出 到 隐藏 状态 。 


(2) 特殊 的 神经 元 结构 ,包含 4 个 Input (3 个 Gate 控制 信号 以 及 输入 数据 ) 和 1 个 Output。 

(3) 激活 函数 通常 选用 Sigmoid 函数 (也 叫 Logistic 函数 ) ， 个 别 使 用 tanh 函数 。Sigmoid 
激活 函数 用 于 将 输出 压缩 到 0 和 1 之 间 ， 用 于 表示 Gate 的 打开 程度 。 

为 了 方便 介绍 LSTM 的 细胞 架构 ， 这 里 给 出 LSTM 中 数据 流 的 抽象 图 ， 如 图 7-2 所 示 。 
正如 图 7-2 中 所 示 ， 细 胞 将 输出 某 个 状态 ， 该 状态 依赖 于 〈 具 有 非 线性 激活 函数 ) 之 前 的 状态 和 当 
前 的 输入 。 但 是 ， 在 RNN 中 ， 细 胞 状态 总 是 随 着 接 下 来 的 每 个 输入 而 变动 的 ， 这 种 现象 的 存在 对 
于 存储 长 期 依赖 性 是 非常 不 利 的 。 

这 里 需要 强调 的 是 , LSTM 可 以 决定 何 时 替换 、 更 新 或 遗忘 存储 在 细胞 状态 中 的 每 个 神经 元 内 
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的 信息 。 换 名 话说， 如 果 有 需要 的 话 ，LSTM 本 身 其 实 存在 一 种 机 制 ( 其 实 就 是 门 控 机 制 ) 来 保持 
细胞 状态 不 变 ， 使 它们 能 够 存储 长 期 依赖 性 一 一 即 保持 长 期 记忆 。 

LSTM 拥有 细胞 需要 执行 每 个 操作 的 各 类 门 (Gate〉， 而 这 些 门 的 打开 程度 在 0 和 1 之 间 ( 通 
常 是 Sigmoid 函数 ) 是 连续 的 ， 其 中 0 表示 该 门 处 于 闭合 状态 ， 没 有 信息 流 可 以 通过 该 门 ，1 表示 
该 门 处 于 打开 状态 ， 所 有 信息 都 可 以 通过 该 门 。LSTM 的 这 些 功 能 体现 在 图 7-2 中 。 每 个 门 决定 各 
种 数据 〈 例 如 当前 输入 状态 、 先 前 隐藏 状态 或 先前 的 细胞 状态 ) 有 多 少 流 入 状态 〈 最 终 隐 藏 状态 或 
细胞 状态 )， 每 条 线 的 粗细 表示 从 该 门 流出 的 信息 量 大 小 。 例如 ,输入 门 相 比 于 先前 最 终 隐藏 状态 
更 喜欢 允许 更 多 的 当前 输入 通过 , 而 遗忘 门 则 更 喜欢 让 更 多 的 先前 最 终 隐藏 状态 而 不 是 当前 输入 通 


过 
人 A > Current 


Cell State 


Previous 


Cell State 


图 7-2 LSTM 细胞 中 数据 流 的 抽象 图 


7.2 LSTM 工作 原理 详解 


本 节 介 绍 LSTM 运作 的 基本 原理 。 由 7.1 节 我 们 知道 LSTM 网 络 由 彼此 连接 的 细胞 组 成 ， 且 
每 个 LSTM 细胞 包含 三 种 类 型 的 门 : 输入 门 、 遗 忘 门 和 输出 门 ， 它 们 分 别 实现 对 细胞 存储 器 的 写 
入 、 复 位 (或 称 为 重 置 ) 和 读 取 功能 。 这 些 门 不 是 二 进 制 的 ， 而 是 模拟 的 (通常 由 映射 在 [0,1] 范 围 
内 的 Sigmoid 激活 函数 管理 , 其 中 0 表示 总 抑制 , 1 表示 总 激活 ) 。 LSTM 细胞 管理 两 个 状态 向 量 : 
细胞 状态 和 隐藏 状 态 ， 出 于 性 能 原因 ， 它们 默认 保持 独立 。 当然, 在 具体 操作 中 也 可 以 通过 在 创建 
BasicLSTMCell 时 设置 state_is_tuple =False 来 更 改 此 默认 行为 。 图 7-3 提供 了 具有 单个 状态 单元 的 
LSTM 细胞 块 的 图 示 。LSTM 网 络 的 形成 与 简单 的 RNN 是 一 致 的 ， 只 是 隐藏 层 中 的 非 线 性 单元 被 
存储 器 块 蔡 换 。 此 外 ， 与 其 他 RNN 一 样 ， 隐 藏 层 可 以 附加 到 任何 类 型 的 可 微分 输出 层 ， 有 具体 取决 
于 所 需 的 任务 〈 回 归 、 分 类 等 ) 。 
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FORGET GATE ~ 


NET INPUT 


7-3 具有 一 个 状态 单元 的 LSTM 细胞 块 图 示 
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在 图 7-3 中 ， 通 过 设 定 权重 值 为 固定 (1.0〉 以 重复 连接 来 维持 内 部 细胞 状态 。 三 个 门 从 块 的 
内 部 和 外 部 收集 激活 情况 ， 并 通过 乘法 单元 (小 圆圈 ) 控制 细胞 状态 。 输 入 门 和 输出 门 控制 细胞 数 
据 流 的 输入 和 输出 程度 ， 而 遗忘 门 控制 内 部 细胞 状态 。 细 胞 输入 和 输出 激活 函数 〈g 和 bh) 应 用 于 
指定 位 置 。 实 际 上 ， 多 数 情况 下 该 自 循环 的 权重 值 会 视 上 下 文 情况 而 产生 变动 。 
设想 一 下 , 日 常生 活 中 可 拆 装 的 汽车 玩具 , 在 组 装 汽车 的 过 程 中 , 每 个 时 间 步 又 中 都 会 面临 以 


下 状况 : 


(1) 手头 有 的 汽车 部 件 。 


(2) 吕 


忆 或 询问 旁人 汽车 组 装 好 后 完整 的 结构 图 样 。 


(3) 汇集 (1) 和 (2) 中 的 信息 ， 决 定 将 当前 的 部 件 组 装 到 哪个 位 置 。 
这 种 生活 中 遇 到 的 场景 与 我 们 的 LSTM 的 工作 原理 其 实 很 相似 ， 比 如 〈1) 中 你 拥有 的 汽车 部 


件 就 是 当前 和 


于 


(2) 中 其 实 就 是 调 入 之 前 的 记忆 /信息 ; (3) 中 就 是 汇集 外 部 输入 和 xz 
之 前 的 记忆 来 决定 输出 的 结果 (ye) 。 下 面 我 们 通过 一 个 具体 的 例子 对 LSTM 内 在 逻辑 进行 解读 。 


首先 ， 假 设 这 里 有 一 个 句子 : 


John gave Mary a puppy- 


两 个 句子 : 


我 们 输出 的 内 容 应 该 是 John、Mary 和 puppy。 这 时 假设 LSTM 在 上 面 给 定 的 句子 后 需要 输出 


John gave Mary a puppy-. 


那么 后 面 的 两 个 句子 可 能 是 : 


It barks very loudly. They named it Luna. 
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虽然 我 们 的 LSTM 模型 还 远 未 输出 诸如 此 类 的 实际 短语 ， 但 是 可 以 学 习 这 些 名 词 和 代词 之 间 
的 关系 。 例 如 ,It 与 puppy 有 关 ，They 与 John 和 Mary 有 关 。 然 后 ，It 应 该 学 习 名 词 /代词 和 动 
词 之 间 的 关系 。 例 如 ， 对 于 Ht， 动词 最 后 应 该 有 一 个 s。 对 于 这 些 情况 ， 我 们 结合 例句 给 出 了 这 些 
单词 间 的 依赖 关系 ， 如 图 7-4 所 示 。 我 们 看 到 短语 中 的 长 期 记忆 【例如 Luna 一 puppy) 和 短期 记忆 
(例如 区 -barks) 的 依赖 关系 ， 实 线 箭头 代表 名 词 和 代词 之 间 的 联系 ， 虚 线 箭 头 显示 了 名 词 /代词 
和 动词 之 间 的 联系 。 


John gave Mary a 二 


lt barks very loudly. 
4 全 


这 They named it Luna. 


图 7-4 例句 中 各 单词 之 间 的 各 种 关系 图 
接 下 来 ， 我 们 将 通过 这 些 内 部 具体 操作 来 建立 单词 间 的 各 种 关系 ， 以 便 输出 合理 的 句子 文本 。 


7.2.1 梯度 信息 如 何 无 损失 传递 


如 何 让 梯度 随 着 时 间 的 流动 不 发 生 指 数 级 消失 或 者 爆炸 ， 这 是 摆 在 我 们 面前 的 一 个 重要 问题 。 
数学 上 ,无 论 对 1 做 多 少 次 方 的 运算 结果 还 是 1 ,如 果 我 们 得 到 的 梯度 恒 为 1 ,貌似 问题 就 解决 了 。 
这 时 ， 我 们 就 可 以 对 长 时 记忆 细胞 c 的 数学 模型 进行 设计 ， 大 概 样子 如 下 : 


Ct = C(t-1) 


这 时 ,误差 反 向 传播 时 的 导数 就 是 恒定 的 ( 即 为 1 ) ,误差 可 以 一 路 无 损耗 地 向 前 传播 直到 网 
络 起 始 端 。 也 就 是 说 ， 我 们 可 以 学 习 到 神经 网 络 前 端 与 末端 的 依赖 性 。 
就 像 汽车 运输 一 样 ， 运 输 路 线 畅 通 了 。 接 下 来 我 们 对 数据 的 装载 和 务 载 进 行 处 理 。 


7.2.2 将 信息 装载 入 长 时 记忆 细胞 


由 前 面 得 知 , 输入 门 i 将 当前 输入 xt 和 前 一 个 最 终 隐 藏 状态 h(e_y) 作 为 输入 并 计算 i， 具体 如 下 : 
it = o(Woaxe + Weinmheey + bi) EL 
这 里 g(x) = re 


输入 门 可 以 理解 为 在 具有 Sigmoid 激活 函数 的 单 隐藏 层 (标准 RNN 上 的 隐藏 层 ) 处 执行 的 计 
算 。 标 准 RNN 的 隐藏 层 状态 ht 计算 公式 如 下 : 


he = tanh(Uxe + WhenD) (72) 
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我 们 发 现 除了 激活 函数 不 同和 增加 偏差 之 外 ，LSTM 中 的 输入 门 记 和 标准 RNN 的 隐藏 状态 hi 在 
计算 上 很 相似 。 由 上 面 的 内 容 我 们 得 知 ， 对 于 输入 门 记 计 算 的 结果 ， 如 果 值 为 1， 就 意味 着 当前 输入 
的 所 有 信息 将 被 传递 到 细胞 状态 ， 如 果 值 为 0， 就 意味 着 当前 输入 的 信息 均 不 能 被 传递 到 细胞 状态 。 

接 下 来 ， 我 们 要 给 出 由 tanh 层 创建 的 一 个 候选 项 向 量 ， 记 为 6， 该 向 量 将 会 被 添加 以 便 稍 后 
能 够 计算 当前 细胞 状态 。 

& = tanh(Weewxe + Weerhee-s) + be) (7.3) 


至 此 ， 涉 及 的 计算 都 可 以 在 图 7-5 中 看 到 。 


sigmoid || sigmoid 
| 


Watb 
天 


图 7-5 LSTM 中 涉及 的 所 有 计算 《灰色 显示 ) ， 其 中 的 计算 zz 和 人 以 黑色 显示 


而 在 示例 中 , 在 学 习 的 最 初 阶段 , 输入 门 需要 高 度 激活 。 LSTM 输出 的 第 一 个 词 就 是 it。 为 此 ， 
LSTM 必须 知道 puppy 也 被 称 为 it。 假设 LSTM 由 5 个 神经 元 来 存储 状态 。 我 们 希望 LSTM 存储 
让 所 指 的 是 puppy 信息 ， 也 希望 LSTM 学 习 的 另 一 条 信息 (在 不 同 的 神经 元 中 ) 是 当 使 用 的 主语 是 
让 时 ， 其 对 应 动词 的 时 态 应 该 在 词 末尾 有 一 个 s。 LSTM 需要 知道 的 另 一 件 事 是 小 狗 (puppy) 可 
以 大 声 (loudly) 喘 (barks) 。 图 7-6 说 明了 LSTM 如 何在 其 细胞 状态 中 对 这 些 信息 进行 编码 处 理 ， 
每 个 圆圈 代表 细胞 状态 的 单个 神经 元 (隐藏 单元 〉。 


Kt -> Puppy Current Verb for barks->loudly 
subject (i.e. current 
"it") subject (i.e. 
"barks") 


图 7-6 该 细胞 状态 对 这 些 信息 进行 编码 并 输出 第 一 个 句子 的 信息 
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同时 我 们 输出 第 一 个 新 句子 ， 如 下 : 


John gave Mary a puppy. It barks very loudly. 


7.2.3 ”更 新 细胞 状态 可 能 产生 的 问题 及 解决 方案 


目前 例子 中 的 样本 信息 量 很 小 ,对 于 输入 门 影响 不 大 , 但 现实 中 样本 数据 量 都 很 大 ， 如 果 输 入 
状态 处 于 打开 状态 , 试图 记 住所 有 的 信息 会 产生 不 利 的 结果 : 状态 e 的 值 会 变 得 很 大 。 因 为 神经 网 
络 在 输出 时 需要 把 c 激活 ， 而 当 c 变 得 非常 大 时 ， 像 sigmoid、tanh 这 些 常见 的 激活 函数 的 输出 就 
会 完全 饱和 ， 比 如 图 7-7 给 出 的 tanh 激活 函数 。 


1.0 


图 7-7 tanh 激活 函数 
当 c 的 容量 巨大 时 ，tanh 曲线 趋 近 于 1， 这 时 c 再 增加 也 没有 什么 意义 ， 因 为 已 经 处 于 饱和 状 
态 ， 不 可 能 再 装载 更 多 信息 。 我 们 前 面 提 到 的 遗忘 门 就 是 专门 为 解决 此 类 问题 而 设计 的 ， 可 以 派 上 
用 场 了 : 每 个 时 刻 传递 过 来 的 信息 ， 需 要 通过 遗忘 门 丢弃 一 些 不 需要 的 信息 ， 当 然 会 记 住 一 些 需 要 
的 信息 ， 这 就 可 以 防止 上 面 提 到 的 状态 饱和 问题 。 遗 忘 门 的 计算 公式 如 下 : 


fi = (Wepre + Wermheen + by) (7.4) 


这 里 g(x) = ras 
通过 该 公式 ， 对 于 遗忘 门 而 言 将 会 执行 如 下 操作 : 


@ ”遗忘 门 的 值 为 0 意味 着 它 将 不 会 传递 来 自 c(t_1) 的 信息 来 更 新 ct。 
@ ”遗忘 门 的 值 为 1 意味 着 它 将 传递 来 自 cdt_D 的 所 有 信息 来 更 新 ct。 


接 下 来 ， 我 们 将 看 到 遗忘 门 如 何 帮助 我 们 预测 下 一 句 : 


They named it Luna. 


这 时 可 以 看 到 ， 我 们 正在 寻找 的 新 关系 是 约翰 〈John) 和 玛丽 (Mary) 以 及 他 们 (CThey) 之 
间 的 关系 。 因 此 ， 我 们 不 再 需要 有 关 主 语 它 〈It) 的 信息 以 及 动词 barks 的 行为 ， 因 为 主语 是 约翰 
(John) 和 玛丽 (Mary) 。 我 们 通过 遗忘 门 用 当前 主语 (They) 和 其 对 应 动词 Cnamed) 来 替换 存 
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储 在 当前 神经 元 中 的 主语 和 对 应 的 动词 信息 ， 有 具体 如 图 7-8 所 示 。 


[© ©® ©® ©® Do 


It-> Puppy Current Verbfor barks->loudly 
subject (i.e. current 
"they") subject (i.e. 
"named") 


图 7-8 左边 起 第 二 和 第 三 个 神经 元 的 信息 (It 一 barks〉 被 新 信息 (They 一 named》 所 取代 
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就 涉及 输入 门 和 遗忘 门 的 权重 值 而 言 ， 图 7-9 中 说 明了 这 些 转变 过 程 。 我 们 不 会 改变 维持 
It*puppy 这 种 关系 的 神经 元 的 状态 ， 因 为 puppy 在 最 后 一 句 中 显示 为 一 个 被 操作 对 象 。 这 是 通过 
设置 将 It 一 puppy 从 cte-1) 连 接 到 ct 的 权重 值 设置 为 1 来 完成 的 。 然 后 我 们 将 用 新 的 主语 和 动词 来 
更 新 维持 当前 主语 和 当前 动词 信息 的 神经 元 信息 ,这 是 通过 将 该 神经 元 的 遗忘 权重 值 设 置 为 0 来 
实现 的 。 接 着 ,我 们 将 当前 主语 和 动词 连接 到 相应 神经 元 状态 的 权重 值 设置 为 1 ， 我 们 可 以 将 


视 为 哪些 新 信息 (例如 来 自 当前 输入 x 的 新 信息 〉 应 该 被 带 进 细胞 状态 的 实体 中 。 
遗忘 门 权重 一 一 0 
( Fa 


es "it” bare bare C(t-1) bo they™” [named’ bark->loud © , 
输入 门 权重 
《7 
OO- © 0 
"they” named Ci 
图 7-9 用 先前 状态 c(e_1) 和 候选 项 ti 来 计算 细胞 状态 ce 
当前 细胞 状态 将 更 新 如 下 : 


Ce = fec(e-1) 十 it 
换 句 话说 ， 当 前 状态 是 以 下 的 组 合 : 


@ 前 一 个 细胞 状态 遗忘 / 记 住 哪些 信息 。 
@ 要 添加 /丢弃 当前 输入 的 信息 。 


图 7-10 显示 了 当前 在 LSTM 中 进行 的 所 有 计算 的 内 容 。 


(7.5) 
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图 7-10 当前 在 进行 的 所 有 计算 的 内 容 (i.fe.6i.ce) 
在 学 习 之 后 ， 完 整 的 细胞 状态 如 图 7-11 所 示 。 


KK -> Puppy Current Verb for barks->loudly They -> John 


subject (i.e. Current and Mary 
"they”) subject (i.e. 
"named") 


图 7-11 输出 两 个 句子 后 ， 完 整 的 细胞 状态 图 
接 下 来 ， 我 们 将 看 看 如 何 计算 LSTM 细胞 的 最 终 状 态 (he》: 


ot = a(Wooxr + Weomhee-1) + bo) (7.6) 
hi: = ortanh(ce) (7.7) 


在 示例 中 ， 需 要 输出 以 下 句子 : 


They named it Luna 


为 此 ， 我 们 不 需要 倒数 第 二 个 神经 元 来 计算 这 个 句子 ， 因 为 它 包 含有 关 小 狗 (puppy〉》 如 何 虹 
(barks〉 的 信息 ， 而 这 人 句 话 是 关于 小 狗 (puppy) 名 字 的 。 这 么 看 来 ， 在 最 后 一 句 的 预测 中 就 可 以 
忽略 最 后 一 个 神经 元 (含有 barks 一 loudly 的 关系 ) 。 这 正 是 ot 所 做 的 ， 它 将 忽略 不 必要 的 记忆 信 
息 ， 而 仅 在 计算 LSTM 细胞 的 最 终 输 出 时 从 细胞 状态 检索 相关 的 记忆 信息 。 图 7-12 给 出 了 LSTM 
细胞 内 部 的 逻辑 。 
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图 7-12 完整 的 LSTM 细胞 的 内 部 逻辑 图 
在 这 里 ， 我 们 总 结 一 下 在 LSTM 细胞 内 部 发 生 操 作 的 所 有 相关 方程 式 。 


ie = o(Woin)xe + Wein)hce-) + bi) 


Gt = tanh(Wcoxt + Weeryhce-) + be) 
fe = oaWoaxe + Wemhee-s + be) 
Ce = fecce-1) 十 it 
or = o(Weox)Xe + Woonyhee-1) + bo) 


h: = ortanh(ce) 


7.2.4 LSTM 模型 输出 


现在 从 更 宽 的 角度 来 看 一 下 关于 学 习 序列 样本 数据 的 问题 。 将 LSTM 细胞 随时 间 变 化 展开 ， 
以 便 展示 这 些 细胞 是 如 何 连接 在 一 起 的 , 从 而 挖掘 出 这 些 细胞 接收 先前 的 状态 后 去 计算 下 一 个 细胞 
状态 ， 如 图 7-13 所 示 。 


ma sma 盖 so 一 ee 
6 @ e@ 


7-13 LSTM 细胞 随时 间 变 化 的 连接 图 
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但 是 实际 上 , 这 些 还 不 足以 做 一 些 有 用 的 工作 。 正 如 我 们 所 看 到 的 那样 ， 即 使 可 以 创建 一 个 真 
正 能 够 对 序列 数据 进行 建 模 的 LSTM 链 ， 我 们 仍然 无 法 进行 输出 或 预测 ， 而 倘若 想 要 使 用 LSTM 
实际 学 到 的 信息 ， 我 们 需要 一 种 能 够 从 LSTM 细胞 中 抽取 最 终 输 出 信息 的 方法 。 因 此 ， 我 们 将 在 
LSTM 顶部 固定 一 个 softmax 层 (包含 权重 值 WW 和 偏差 bps》， 最 终 的 输出 可 以 由 以 下 等 式 获得 : 


y= softmax(W sh + bs) (7.8) 


现在 ， 带 有 softmax 层 的 LSTM 的 最 终 图像 如 图 7-14 所 示 。 


图 7-14 带 有 softmax 层 的 LSTM 随时 间 变化 图 
7.3 LSTM 与 标准 RNN 的 区 别 


本 节 将 要 对 LSTM 与 标准 RNN 进行 比较 分 析 。 实 际 上 ， 与 标准 RNN 相 比 ，LSTM 具有 更 复 
杂 的 结构 。 主 要 区 别 之 一 是 LSTM 具有 两 种 不 同 的 状态 : 细胞 状态 cc 和 最 终 隐藏 状态 ， 而 RNN 仅 
具有 单个 隐藏 状态 。 另 一 个 主要 区 别 在 于 ， 由 于 LSTM 具有 三 个 不 同 的 门 (Gate) ， 因 此 当 计 算 
最 终 隐藏 状态 时 ，LSTM 对 如 何 处 理 当 前 输入 和 先前 的 细胞 状态 具有 更 多 的 控制 空间 。 

LSTM 自 带 的 这 两 种 不 同 的 状态 是 非常 具有 竞争 力 的 起初,LSTM 模型 的 核心 贡献 (Hochreiter 
和 Schmidhuber，1997) 是 引入 自 循环 的 绝妙 想法 ， 以 便 产生 梯度 长 时 间 不 间断 流动 的 路 线 。 这 里 
的 一 个 关键 性 突破 就 是 自 循环 的 权重 值 视 上 下 文 情况 而 定 ， 而 不 是 固定 的 (Gerset 等 ，2000) 。 门 
控 这 个 自 循环 (由 另 一 个 隐藏 单元 控制 ) 的 权重 值 累积 的 时 间 尺度 可 以 产生 动态 变化 ， 此 时 即便 
LSTM 的 参数 是 固定 的 , 累积 的 时 间 尺 度 也 能 够 因 输 入 序列 而 发 生变 化 , 这 是 由 于 时 间 常 数 是 模型 
本 身 的 输出 。 由 此 可 见 ，LSTM 这 种 机 制 的 存在 ， 即 使 细胞 状态 发 生 快 速 变 化 ， 最 终 隐藏 状态 仍 将 
变动 得 更 缓慢 。 因此 ， 虽然 细胞 状态 正在 学 习 短期 和 长 期 依赖 性 , 但 最 终 隐 藏 状态 可 以 仅 反映 短期 
依赖 性 或 仅 反映 长 期 依赖 性 或 两 者 都 反映 。 

由 此 可 见 ，LSTM 是 一 个 原则 性 更 强 的 方法 (特别 是 与 标准 RNN 相 比 ) ， 因 为 它 可 以 更 加 自 
信 地 控制 当前 输入 和 之 前 细胞 状态 对 当前 细胞 状态 的 贡献 程度 。 此 外 , 输出 门 可 以 更 好 地 控制 细胞 
状态 对 最 终 隐 藏 状态 的 贡献 程度 。 在 图 7-15 中 ， 我 们 给 出 了 标准 RNN 和 LSTM 的 比较 示意 图 ， 
显示 出 两 个 模型 之 间 的 差异 。 

综 上 所 述 ， 通 过 设计 和 维持 两 种 不 同 的 状态 ，LSTM 可 以 学 习 短期 和 长 期 依赖 关系 , 这 有 助 于 
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解决 梯度 消失 的 问题 ， 我 们 将 在 下 一 节 中 讨论 。 


从 


©O @ 


werb ] [werb | [wx+b ] [wxrb 


G 
7-15 二 者 对 比 图 示 : 左 侧 为 RNN， 右 侧 为 一 个 LSTM 细胞 


7.4 LSTM 如 何 避 免 梯度 消失 和 梯度 爆炸 问题 


正如 我 们 前 面 所 讨论 的 ， 即 使 RNN 在 理论 上 是 合理 的 ， 但 在 实践 中 它们 也 存在 严重 的 缺陷 。 
也 就 是 说 ， 当 使 用 通过 时 间 反 向 传播 (BPTT) 时 ， 梯 度 会 迅速 减 小 ， 这 使 我 们 只 能 传播 几 个 时 间 
步 长 的 信息 。 这 样 一 来 ， 我 们 只 能 存储 极 少时 间 步 长 的 信息 ， 进 而 只 能 拥有 短期 记忆 。 这 反 过 来 限 
制 了 RNN 在 实际 序列 任务 中 的 应 用 性 。 

通常 有 用 且 有 趣 的 序列 工作 任务 (例如 股票 市 场 预测 或 语言 建 模 ) 需要 具有 学 习 和 存储 长 期 依 
赖 关 系 的 能 力 。 以 下 示例 用 于 预测 下 一 个 单词 : 

John is a talented student. He is an A-grade student and plays rugby and cricket. 

All the other students envy 


对 我 们 来 说 ， 这 是 一 项 非常 容易 的 任务 。 答 案 是 约翰 〈John) 。 但 是 ， 对 于 RNN 来 说 ， 这 是 
一 项 艰巨 的 任务 。 我 们 试图 预测 一 个 答案 ,该 答案 位 于 文本 的 开头 。 此 外 ， 为 了 解决 这 个 任务 , 我 
们 需要 一 种 在 RNN 状态 下 存储 长 期 依赖 关系 的 方法 。 这 正 是 LSTM 则 在 解决 的 任务 类 型 。 

在 第 6 章 的 循环 神经 网 络 中 ， 我 们 讨论 了 如 何在 没有 任何 非 线 性 函数 的 情况 下 出 现 梯度 消失 / 
爆炸 。 我 们 现在 将 看 到 ， 即 使 存在 非 线 性 项 ， 它 仍然 可 能 发 生 。 为 此 ， 我 们 将 看 到 导数 项 aas 如 


何 用 于 标准 RNN 和 LSTM (LSTM 的 是 一 一 网 络 。 正 如 我 们 在 第 6 章 中 所 学 到 的 ， 这 是 导致 梯 


度 消失 的 关键 项 。 
假设 标准 RNN 的 隐藏 状态 计算 如 下 : 
he = o(Wrxe + Wnhce-1)) 


为 了 简化 计算 , 我 们 可 以 忽略 当前 与 输入 相关 的 项 , 并 将 重点 放 在 循环 部 分 ， 这 将 给 出 以 下 等 
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式 : 
心 三 o(Wehee_y)) 
如 果 我 们 计算 前 面 的 所 -项 ， 将 得 到 以 下 结果 : 


生生 
oh., 
= | [Wri #0) ~ oCWohce sn)) 
he 1 

i=0 


=W# [T= o(Wahce_krn) (1 = (Wihne -ebp)) 


现在 让 我 们 看 看 当 Whh(e_ktiy<< 0 或 Wnhee_x+D>> 0 时 会 发 生 什 么 。 在 这 两 种 情况 下 ， 将 
开始 接近 0， 从 而 发 生 梯 度 消失 。 当 Wrhee_ktj= 0 时 ， 对 于 Sigmoid 激活 函数 而 言 ， 梯 度 是 最 大 的 
(0.25) ， 当 乘 以 多 个 时 间 步 长 时 ,整体 梯 度 变 得 非常 小 。 此 外 ，W* 项 (可 能 由 于 初始 化 不 合理 ) 

也 会 导致 梯度 爆炸 或 消失 。 然 而 ， 与 由 Wi he_xy0<< 0 或 Wihte_x40>> 0 而 导致 的 梯度 消失 相 比 ， 
由 W 必 项 引起 的 梯度 消失 /爆炸 相对 容易 解决 〈 认 真 合理 初始 化 权重 值 和 进行 梯度 裁剪 ) 。 
现在 让 我 们 看 一 下 细胞 状态 ， 由 下 式 给 出 : 
ct = ficte-1) 十 站 Et 
这 是 LSTM 中 发 生 的 所 有 遗忘 门 应 用 的 产物 。 但 是 , 如 果 以 类 似 的 方式 为 LSTM 计算 -ace_( 包 


acdt- 
略 Wrzxt 项 和 访 ， 因 为 它们 是 非 循环 的 ) ， 将 得 到 以 下 结果 : 


Qce 
Ack) 


谢 一 和 
= [ o(Wrnhcekr)) 
i=0 
在 这 种 情况 下 ， 如 果 Wihe_x+9<< 0， 那 么 梯度 将 消失 ， 另 一 方面 ， 如 果 Wi he_e+5>> 0， 那 么 
导数 将 比 标准 RNN 中 的 变动 速度 慢 得 多 。 此 外 ， 当 使 用 压缩 函数 时 ， 由 于 es_ 很 大 《梯度 昌 炸 
期 间 可 能 发 生 的 事情 )， 梯度 不 会 爆炸 。 此 外 ， 当 Wihe_er>> 0 时 ,我 们 得 到 接近 1 的 最 大 梯度 ， 
这 意味 着 梯度 不 会 像 我 们 在 RNN 中 看 到 的 那样 迅速 减 小 〔 当 梯度 达到 最 大 值 时 ) 。 最 后 ， 在 推导 
中 没有 诸如 lik 之 类 的 项 。 然 而 ， 对 于 5 的 推导 更 为 棘手 。 让 我 们 看 看 这 些 项 是 否 存在 于 ae 
的 推导 中 。 如 果 我 们 计算 出 它 的 这 些 推导 ， 将 得 到 以 下 的 式 子 : 
Oh: 9(Coctanh(co)) 
Oh(e_x) Oh(e_x) 


一 旦 解决 了 这 个 问题 ， 我 们 就 会 得 到 这 样 的 形式 : 
tanh(.)o()[1 — oC )]won + 0) — tanh?(.)](ce vo) — owrn + oC)1 ~ tanh(.) wen 
+ tanh(.)o(.)[1 — o(.)]win) 
我 们 不 关心 o( .或 tanh (. ) 内 的 内 容 ， 因 为 无 论 是 什么 值 ， 它 都 将 在 (0,1) 或 (-1,1) 的 范围 
之 内 。 如 果 我 们 用 一 些 常见 的 符号 (比如 y(.)) 来 替换 G(.)、[l-c(.)] 、tanh(.) 和 [1-tanh(.)^2] 
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项 ， 将 得 到 如 下 式 子 : 
Yy()won t+ YC)[ce DYyC)wrn + YC )wen 十 y(C)win] 
或 者 得 到 以 下 结果 (假设 外 部 y(. ) 被 方 括 号 内 的 每 个 y(. ) 项 吸收 ) : 


Y()won 二 ce-DY(C)wPna + YC) Wen 十 YX(C)win 


这 将 给 出 以 下 内 容 : 
i Kk-1 
2 
Bh 琵 [] Y (.)won + Ce_DY Wen + YC )Wen + Y(.) Win 


这 意味 着 虽然 项 一生 -对 任何 Wx 项 是 安全 的 ， 但 是 对 -2 不 是 。 因 此 ， 在 初始 化 LSTM 的 权 


actt- 有 ht- 间 


重 值 时 必须 谨慎 ， 我 们 也 应 该 使 用 梯度 裁剪 。 


尽管 如 此 ,梯度 消失 的 稳定 性 对 于 LSTM 并 不 像 RNN 那样 重要 。 因 为 ct 仍然 可 以 存储 长 
期 依赖 性 而 不 受 梯度 消失 的 影响 ， 并 且 如 果 需 要 ，he 可 以 从 ct 处 检索 长 期 依赖 性 。 


7.5 优化 LSTM 


正如 我 们 在 学 习 RNN 时 所 看 到 的 那样 ， 拥 有 坚实 的 理论 基础 并 不 一 定 能 保证 它们 在 实践 中 表 
现 最 佳 。 这 是 由 于 计算 机 数值 精度 的 限制 所 致 ，LSTM 也 是 如 此 。 拥 有 复杂 的 设计 ， 人 允许 更 好 地 建 
模 数据 中 的 长 期 依赖 性 ， 这 本 身 并 不 意味 着 LSTM 将 输出 完全 准确 的 预测 。 因 此 ， 已 经 开发 了 许 
多 扩展 来 帮助 LSTM 在 预测 阶段 表现 得 更 好 。 在 这 里 ， 我 们 将 讨论 几 个 这 样 的 改进 : 贪 禁 采 样 、 
集束 搜索 、 使 用 词 向 量 而 不 是 词 的 One-Hot 编码 表示 以 及 使 用 双向 LSTM。 


7.5.1 贪 禁 采样 


如 果 我 们 始终 试图 以 最 高 概率 预测 词 ，LSTM 将 倾向 于 产生 非常 单一 的 结果 。 例 如 ， 它 会 在 切 
换 到 另 一 个 单词 之 前 多 次 重复 单词 the。 

解决 这 个 问题 的 一 种 方法 是 使 用 贪 禁 采 样 〈Greedy Sampling) ， 我 们 从 中 选择 预测 最 佳 的 n 
和 样本 。 这 有 助 于 打破 预测 的 单一 性 。 

让 我 们 考虑 前 一 个 例子 的 第 一 句 话 : 


John gave Mary a puppYy- 


我 们 从 第 一 个 单词 开始 ， 并 想 要 预测 接 下 来 的 4 个 单词 : 


John 


如 果 我 们 尝试 确定 性 地 选择 样本 ，LSTM 可 能 倾向 于 输出 如 下 内 容 : 
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John gave Mary gave John. 

但 是 ,通过 从 词汇 表 里 的 一 个 单词 子 集中 采样 下 一 个 单词 , LSTM 被 迫 改变 预测 并 可 能 输出 以 
下 内 容 : 

John gave Mary a puppy- 

或 者 提供 以 下 输出 : 

John gave puppy a puppy-. 

但 是 ,即使 贪 禁 采样 有 助 于 为 生成 的 文本 添加 更 多 变化 , 此 方法 也 不 能 保证 输出 始终 是 真实 的 ， 


尤其 是 在 输出 较 长 的 文本 序列 时 。 接 下 来 我 们 看 一 种 更 好 的 搜索 技术 , 它 实际 上 在 预测 之 前 的 几 个 
步骤 中 是 超前 运行 的 。 


7.5.2 ”集束 搜索 


集束 搜索 (Beam Search) 是 一 种 帮助 LSTM 改善 预测 质量 的 方法 。 在 此 ， 通 过 解决 搜索 问题 
找到 预测 。 集 束 搜 索 的 关键 思想 是 一 次 产生 (b+1) 个 输出 《ye,y(erp,Yketz),…1Yets)) 而 不 是 单 
个 输出 y.。 这 里 ，b 被 称 为 集束 的 长 度 ， 并 且 产 生 的 b 个 输出 被 称 为 集束 。 从 技术 上 讲 ， 我 们 选择 
具有 最 高 联合 概率 pOxe yerD,ydtra……yGera 1 xt) 的 集束 , 而 不 是 选择 单一 项 的 最 高 概率 p(yt | xe)。 
在 进行 预测 之 前 ， 我 们 将 会 进一步 研究 未 来 ， 这 通常 会 带 来 更 好 的 结果 。 

让 我 们 通过 前 面 的 例子 来 理解 集束 搜索 : 


John gave Mary a puppy- 
这 里 ， 我 们 将 逐个 进行 单词 预测 。 最 初 我们 有 以 下 内 容 : 


John 


假设 LSTM 使 用 集束 搜索 产生 例句 ， 那 么 每 个 单词 的 概率 可 能 就 像 图 7-16 中 的 那样。 假设 集 
来 长 度 b=2， 我 们 将 在 搜索 的 每 个 阶段 考虑 n=3 个 最 佳 候选 项。 搜索 树 如 图 7-16 所 示 。 
名 
问 骨 蜗 生 总 
电信 


图 7-16 集束 搜索 的 空间 结构 ， 这 里 n=3 且 b=2 


我 们 从 单词 John 开始 ， 得 到 词汇 表 中 所 有 单词 的 概率 。 在 例子 中 ， 当 n=2 时 , 我 们 为 树 的 下 
一 级 选择 最 好 的 三 个 候选 项 : gave、Mary 和 puppy。 这 里 特别 说 明 ， 这 些 可 能 不 是 LSTM 实际 找 
到 的 候选 项 ， 仅 用 作 示 例 而 已 。 然 后 从 这 些 选 定 的 候选 项 中 ， 树 的 下 一 级 继续 延伸 。 在 那里 ， 搜 索 
将 重复 ， 直 至 搜索 到 树 中 的 深度 为 b， 我 们 将 挑选 最 好 的 三 个 候选 项 。 
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图 7-16 中 给 出 了 最 高 联合 概率 的 路 径 (P (gave ,Mary| John) = 0.09) ， 这 里 用 粗 线 箭头 突出 
显示 。 这 是 一 种 更 好 的 预测 机 制 , 因为 它 会 为 诸如 John gave Mary 之 类 的 短语 返回 更 高 的 概率 或 奖 
励 ， 而 不 是 John Mary John 或 John gave。 

注意 , 贪 禁 采 样 和 集束 搜索 产生 的 输出 在 我 们 的 示例 中 是 相同 的 , 这 是 一 个 包含 5 个 单词 的 简 
单 句 子 。 然 而 ， 当 我 们 将 其 处 理 以 输出 一 篇 小 文章 时 ,情况 并 非 如 此 。 事 实 上 ,通过 集束 搜索 产生 
的 结果 将 比 通过 贪 禁 采 样 产生 的 结果 更 加 真实 ， 语 法 更 加 正确 。 


7.5.3 ”使 用 词 向 量 

另 一 种 优化 LSTM 性 能 的 流行 方法 是 使 用 词 向 量 而 不 是 使 用 One-Hot 编码 向 量 作为 LSTM 的 
输入 。 让 我 们 结合 上 面 的 例子 来 进行 探讨 。 假 设 我 们 想 要 从 一 些 随机 单词 中 生成 文本 ， 它 将 是 以 下 
内 容 : 


John 


我 们 根据 以 下 旬 子 训练 了 LSTM 模型 


John gave Mary a puppy. Mary has sent Bob a kitten. 


假设 将 词 向 量 定位 如 图 7-17 所 示 。 


John 
ee 
Mary 
© kitten 
. gave 
puppy ee 


图 7-17 二 维 空间 中 的 词 向 量 拓扑 
这 些 词 向 量 的 数字 形式 可 能 如 下 : 


kitten: [0.5, 0.3, 0.2] 
puppy: [0.49, 0.31, 0.25] 
gave: [0.1, 0.8, 0.9] 


可 以 看 出 (kitten , puppy〉 的 距离 小 于 (kitten , gave) 的 距离 。 但 是 ， 如 果 我 们 使 用 One-Hot 
编码 ， 它 们 将 如 下 : 
kitten: [ 1, 0, 0, ...] 


puppy: [0, 1, 0, ...] 
gave: [0, 0, 1, -] 


而 此 时 ， “kitten ,puppy) 的 距离 和 (kitten , gave) 的 距离 相等 。 正 如 所 看 到 的 那样 ，One-Hot 
编码 向 量 不 能 捕获 单词 之 间 的 正确 关系 ， 且 看 到 所 有 单词 彼此 之 间 的 距离 都 相等 。 然而 , 词 向 量 能 
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够 捕获 这 种 关系 ， 且 这 种 关系 更 适合 作为 LSTM 的 特征 。 
由 此 可 见 ， 使 用 词 向 量 ，LSTM 将 学 习 到 更 好 的 词 之 间 的 关系 。 例 如 ， 使 用 词 向 量 ，LSTM 将 
学 习 以 下 内 容 : 


John gave Mary a kitten. 


这 非常 接近 以 下 内 容 : 


John gave Mary a puppy-. 
此 外 ， 它 与 以 下 内 容 完全 不 同 : 


John gave Mary a gave. 


但 是 ， 如 果 使 用 One-Hot 编码 向 量 ， 就 不 会 出 现 这 种 情况 。 


7.5.4 双向 LSTM 


使 双向 LSTM (Bidirectional LSTM，BiLSTM) 是 提高 LSTM 预测 质量 的 一 种 方法 。 利 用 该 方 
法 可 以 训练 LSTM 从 开始 到 末端 和 从 末端 到 开始 读 取 数 据 。 在 训练 LSTM 期 间 ， 将 创建 如 下 数据 
集 。 

考虑 以 下 两 句 话 : 


John gave Mary a 。 It barks very loudly. 


在 这 个 阶段 ， 我 们 希望 LSTM 能 够 合理 地 填补 第 一 个 句子 中 的 缺失 数据 。 
如 果 从 头 开始 读 到 缺失 的 单词 ， 那 么 将 是 : 


John gave Mary a 


这 没有 提供 关于 缺失 单词 上 下 文 的 足够 信息 以 便 正确 地 填充 单词 。 但 是 ， 如 果 同 时 双向 读 取 ， 
那么 将 是 以 下 内 容 : 
John gave Mary a 
. It barks very loudly. 


如 果 我 们 使 用 这 两 个 部 分 创建 数据 ， 就 足以 预测 丢失 的 单词 应 该 像 dog 或 puppy。 因 此 ， 从 两 
个 方向 读 取 数 据 可 以 显著 优化 某 些 问题 的 解决 思路 。 此外, 这 增加 了 神经 网 络 可 用 的 数据 量 并 提高 
了 其 性 能 。 

BiLSTM 的 另 一 个 应 用 是 神经 网 络 机 器 翻译 , 将 源 语言 的 句子 翻译 成 目标 语言 的 句子 。 由 于 一 
种 语言 的 翻译 与 男 一 种 语言 之 间 没 有 特定 的 一 致 性 , 因此 了 解 源 语言 的 过 去 和 未 来 有 助 于 更 好 地 理 
解 上 下 文 ， 从 而 产生 更 好 的 翻译 效果 。 例 如 ， 将 菲律宾 语 翻译 成 英语 的 翻译 任务 。 在 菲律宾 语 中 ， 
句子 通常 按 顺 序 写成 verb-object-subject, 而 在 英语 中 , 则 是 subject-verb-object。 在 这 个 翻译 任务 中 ， 
向 前 和 向 后 阅读 句子 以 进行 良好 的 翻译 。 
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BiLSTM 本 质 上 是 两 个 独立 的 LSTM 网 络 。 一 个 网 络 从 头 到 尾 学 习 数 据 ， 另 一 个 网 络 从 尾 到 
头 学 习 数据 。 在 图 7-18 中 说 明了 BiLSTM 网 络 的 架构 。 


图 7-18 BiLSTM 架构 示意 图 


训练 部 分 有 两 个 阶段 。 首先 , 通过 从 开头 到 结尾 读 取 文本 而 创建 的 数据 训练 实 线 网 络 。 该 网 络 
代表 用 于 标准 LSTM 的 正常 训练 流程 。 其 次 ， 使 用 通过 反 向 读 取 文本 生成 的 数据 训练 虚线 网 络 。 
然后 ， 在 推理 阶段 使 用 实 线 和 虚线 状态 的 信息 (通过 连接 两 个 状态 并 创建 向 量 ) 来 预测 缺失 单词 。 


7.6 LSTM 的 其 他 变 体 


虽然 我 们 主要 关注 标准 的 LSTM 架构 ， 但 是 它 也 有 许多 变 体 ， 它 们 既 可 以 简化 标准 LSTM 中 
的 复杂 架构 ， 又 可 以 产生 更 好 的 性 能 ， 或 者 两 者 兼 而 有 之 。 我 们 将 研究 两 种 对 LSTM 细胞 架构 进 
行 调整 的 变 体 : 窥视 孔 连 接 (Peephole Connection) 和 门 控 循 环 单元 (Gated Recurent Unit, GRU) 。 


7.6.1 老 视 孔 连接 


窥视 孔 连 接 不 仅 允许 门 《Gate) 能 够 看 到 当前 输入 和 先前 的 最 终 隐 藏 状态 ， 还 允许 看 到 先前 的 
细胞 状态 。 这 增加 了 LSTM 细胞 架构 中 的 权重 值 数量 。 已 经 证 明 具有 这 种 连接 可 以 产生 更 好 的 结 
果 ， 这 些 方程 式 如 下 : 


it = o(Weiyxe + WoDhc-D + Weiocee-y + bi) 
Gt = tanh(Weewxe + Weer)hee_y) + be) 


fr=oWoaxe + Womhee-y + Wooce-y + br) 
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ce = fecce-1) 十 让 Et 
Or =a(Wooxr 十 Womhec-D 二 Wooco + bo) 
h: = ortanh(co) 


让 我 们 简要 介绍 一 下 这 些 是 如 何 优化 LSTM 模型 的 。 这 些 门 看 到 的 是 当前 输入 和 最 终 隐藏 状 
态 , 但 不 是 细胞 状态 。 不 过 ， 在 此 配置 中 ， 如 果 输 出 门 的 值 接近 零 ， 即 使 细胞 状态 包含 对 于 提升 性 
能 至 关 重 要 的 信息 ， 最 终 隐 藏 状态 也 将 接近 于 零 。 因此， 这些 门 在 计算 期 间 不 会 考虑 隐藏 状态 。 在 
门 计算 方程 中 含有 细胞 状态 和 被 允许 对 细胞 状态 做 更 多 的 控制 ,并且 即使 在 输出 门 接近 零 的 情况 下 
它 也 可 以 表现 良好 。 

我 们 用 图 7-19 中 的 窥视 孔 连接 来 说 明 LSTM 的 架构 ,标准 LSTM 中 的 所 有 现 有 连接 进行 了 灰 
色 处 理 ， 新 添加 的 连接 以 黑色 显示 。 


(Xk 


四 @ 各 


[semeid] [tann ] [sigmoid [somoid ] 
+ 4 


图 7-19 有 罕 视 孔 连 接 的 LSTM (窥视 孔 连 接 显示 为 黑色 ， 其 他 连接 显示 为 灰色 ) 


7.6.2“ 门 控 循 环 单元 


门 控 循环 单元 (Gated Recurrent Unit，GRU ) 可 被 视 为 标准 LSTM 架构 的 简化 情况 。 正 如 我 们 
看 到 的 ， LSTM 有 三 个 不 同 的 门 和 两 个 不 同 的 状态 。 即 使 对 于 规模 小 的 状态 ， 仅 这 一 点 也 需要 大 量 
参数 。 因 此 ， 科 学 家 们 研究 了 减少 参数 数量 的 方法 ， 而 GRU 就 是 这 样 一 种 方法 。 标 准 LSTM 和 
GRU 之 间 有 几 个 主要 差异 ， 具 体 如 下 : 

首先 ，GRU 将 两 个 状态 (细胞 状态 和 最 终 隐 藏 状态 ) 组 合成 单个 隐藏 状态 。 现 在 ， 针 对 这 两 
种 细胞 状态 做 简单 修改 后 ,结果 就 是 我 们 失去 了 输出 门 。 由 前 面 的 内 容 , 我 们 知道 输出 门 只 是 决定 
将 多 少 细胞 状态 读 入 最 终 隐 藏 状态 ， 因 此 此 操作 大 大 减少 了 LSTM 细胞 中 的 参数 数量 。 

接 下 来 ，GRU 引入 一 个 复位 门 (或 称 为 重 置 门 》， 当 它 接近 1 时 ， 在 计算 当前 状态 时 将 获取 
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完整 的 先前 状态 信息 ; 而 当 复位 门 接近 0 时 ， 它 在 计算 当前 状态 时 忽略 先前 的 状态 信息 。 
验 二 本 (Woxr 二 WomPec-D +b,) 
hh = tanh(Wona)Xe + Won (rehce_1) + bn) 


其 次 ，GRU 将 输入 门 和 遗忘 门 组 合成 一 个 更 新 门 。 标 准 LSTM 有 两 个 门 : 输入 门 和 遗忘 门 。 
输入 门 决定 将 多 少 目前 输入 读 入 细胞 状态 ， 而 遗忘 门 决 定 将 多 少 先 前 细胞 状态 读 入 当前 细胞 状态 。 
在 数学 上 ， 这 可 以 显示 如 下 : 


it = o(Weiyxe + Weimhee-y + bi) 
fe=o(Woaxe + Womhee-y + by) 


如 果 更 新 门 是 0， 就 将 先前 细胞 状态 的 完整 状态 信息 推 入 当前 细胞 状态 ， 其 中 当前 输入 没有 被 
读 入 当前 状态 。 如 果 更 新 门 是 1， 那 么 所 有 当前 输入 被 读 入 当前 细胞 状态 ， 而 之 前 细胞 状态 都 不 会 
被 推送 到 当前 细胞 状态 。 换 名 话说， 更 新 门 变 为 遗忘 门 的 反 转 ， 即 1 一 无: 


Zr 三 o(W(zx)xe + Wzmhee-1) +b,) 
he = Zeh + (1 — ze) hee-y) 
现在 我 们 把 GRU 设计 的 方程 式 总 结 一 下 ， 具 体 如 下 : 
re = o(Weraxe + Wormhee-n + by) 
hi = tanh(Wenaxe + Wenm (rehee_1)) + bn) 
Zt = o(Wozo) Xe + Womhee-n + bz) 
hr = zehe + (1— 2)hce-s) 


这 比 LSTM 更 紧凑 。 在 图 7-20 中 ， 我 们 给 出 了 GRU 细胞 〈 左 图 ) 和 LSTM 细胞 〈 右 图 ) 。 


7-20 GRU 和 LSTM 的 对 比 
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7.7 总 结 


[ee | 


在 本 章 中 ， 我 们 学 习 了 LSTM 网 络 。 首 先 ， 我 们 讨论 了 LSTM 及 其 高 级 架构 ， 还 深入 研究 了 
LSTM 中 发 生 的 详细 计算 ， 并 通过 一 个 例子 讨论 了 计算 过 程 。 
我 们 看 到 LSTM 主要 由 5 个 不 同 的 部 分 组 成 。 


细胞 状态 (Cell State ) : LSTM 细胞 的 内 部 状态 ( 存储 器 ) 。 

隐藏 状态 (Hidden State ) : 外 部 隐藏 状态 用 于 计算 预测 。 

输入 门 (Input Gate ) : 这 决定 了 当前 输入 被 读 入 细胞 状态 的 程度 。 

遗忘 门 (Forget Gate ) : 这 确定 了 将 先前 的 细胞 状态 发 送 到 当前 细胞 状态 的 程度 。 
输出 门 (Output Gate ) : 这 决定 了 将 多 少 细胞 状态 输出 到 隐藏 状态 。 


拥有 如 此 复杂 的 结构 允许 LSTM 很 好 地 捕获 短期 和 长 期 依赖 性 。 

我 们 发 现 LSTM 实际 上 能 够 将 长 期 依赖 性 作为 其 结构 的 固有 部 分 进行 学 习 , 而 RNN 可 能 无 法 
学 习 长 期 依赖 性 。 之 后 ， 我 们 讨论 了 LSTM 如 何 通过 其 复杂 的 结构 解决 梯度 消失 的 问题 。 

然后 ， 我 们 讨论 了 几 个 可 以 提高 LSTM 性 能 的 扩展 。 首 先是 我 们 称 之 为 贪 禁 采 样 的 一 种 非常 
简单 的 技术 ， 其 中 ,我 们 不 是 总 是 输出 最 佳 候选 项 ， 而 是 从 一 组 最 佳 候选 项 中 随机 采样 预测 。 我 们 
看 到 这 种 技术 改善 了 生成 文本 的 多 样 性 。 接 下 来 , 我 们 研究 了 一 种 称 为 集束 搜索 的 更 复杂 的 搜索 技 
术 。 通 过 这 种 技术 ， 我 们 可 以 预测 未 来 的 几 个 时 间 步 长 ， 并 选择 产生 最 佳 联合 概率 的 候选 项 ， 而 不 
是 对 未 来 的 单个 时 间 步 长 进行 预测 。 另 一 项 改进 是 词 向 量 如 何 帮助 我 们 提高 LSTM 预测 的 质量 。 
使 用 词 向 量 , LSTM 可 以 更 有 效 地 学 习 在 预测 期 间 蔡 换 语义 相似 的 词 ( 例 如 ,代替 输出 dog, LSTM 
可 能 输出 cat) ， 从 而 使 生成 文本 更 真实 和 正确 。 我 们 考虑 的 最 终 扩 展 是 BiLSTM 或 双向 LSTM。 
BiLSTM 的 一 个 流行 应 用 是 填充 短语 中 的 缺失 单词 。 BiLSTM 可 以 从 开始 到 末端 、 从 末端 到 开始 两 
个 方向 读 取 文本 。 这 为 我 们 提供 了 更 多 的 文本 背景 资料 , 因为 我 们 在 正式 预测 之 前 可 以 观察 到 待 生 
成 文本 的 过 去 和 未 来 。 

最 后 ， 我 们 讨论 了 LSTM 的 两 种 变 体 : 窥视 孔 连 接 和 GRU。VanillaLSTM 在 计算 门 时 ， 只 查 
看 当前 输入 和 隐藏 状态 。 通 过 窥视 孔 连接 ， 我 们 使 门 计 算 依赖 于 所 有 当前 输入 、 隐 藏 和 细胞 状态 。 

GRU 是 VanillaLSTM 更 优秀 的 变 体 ， 可 简化 LSTM 而 不 会 影响 性 能 。 GRU 只 有 两 个 门 和 一 
个 状态 ， 而 VanillaLSTM 有 三 个 门 和 两 个 状态 。 

在 下 一 章 中 , 我 们 将 看 到 这 些 不 同 的 架构 与 每 个 架构 的 实现 , 并 了 解 它们 在 文本 生成 任务 中 的 
表现 。 


利用 LSTM 自动 生成 文本 


文本 自动 生成 是 自然 语言 处 理 领 域 的 一 个 重要 研究 方向 , 这 项 技术 可 以 实现 让 计算 机 像 人 类 一 
样 撰写 出 高 质量 的 自然 语言 文本 。 就 不 同 的 输入 而 言 , 我 们 可 以 将 文本 自动 生成 划分 为 文本 到 文本 
的 生成 (Text-to-Text Generation) 、 意 义 到 文本 的 生成 (Meaning-to-Text Generation) 、 数 据 到 文 
本 的 生成 (Data-to-Text Generation) 以 及 图 像 到 文本 的 生成 (Image-to-Text Generation) 等， 其 中 
图 像 到 文本 生成 方面 的 研究 内 容 将 在 下 一 章 单独 介绍 .这 些 文本 生成 技术 每 一 项 都 有 很 大 的 挑战 性 ， 
有 不 少 研究 人 员 都 在 做 着 前 沿 的 研究 ， 且 相关 领域 应 用 的 潜力 巨大 。 例如 , 文本 自动 生成 技术 可 以 
应 用 于 基于 海量 语料库 的 智能 问答 和 对 话 、 新 闻 文 章 的 撰写 、 突 发 事件 的 实时 报道 以 及 海量 文献 书 
籍 的 自动 摘要 等 , 甚至 可 以 用 来 帮助 学 者 进行 学 术 论 文 的 撰写 , 从 而 实现 更 加 智能 和 自然 的 人 机 交 
互 ， 以 减少 许多 语言 工作 人 员 的 工作 量 ， 并 推动 相关 领域 向 更 高 的 水 平 发 展 。 比 较 典型 的 案例 : 美 
联 社 2014 年 7 月 已 采用 新 闻 写作 软件 自动 撰写 新 闻 稿件 来 报道 公司 业绩 ， 美 国 洛杉矶 时 报 利 用 
应 用 软件 来 撰写 突 发 新 闻 ， 美国“ 自动 洞察 力 ”公司 (Automated Insights) 采用 “语言 专家 ”软件 
撰写 橄榄 球 、 财 经 等 方面 的 新 闻 报道 。 这 些 具 体 案例 标志 着 文本 自动 生成 技术 已 经 对 我 们 的 工作 和 
生活 产生 了 积极 的 影响 。 

在 第 7 章 ， 我 们 已 经 很 好 地 理解 了 LSTM 的 基本 原理 ， 例 如 它们 如 何 解决 梯度 消失 和 更 新 规 
则 的 问题 ， 下 面 可 以 看 看 如 何在 NLP 任务 中 使 用 它们 。 LSTM 大 量 用 于 文本 生成 和 图 像 标题 生成 
等 任务 。 例 如 ， 语 言 建 模 对 于 文本 摘要 任务 非常 有 用 ， 或 者 为 产品 生成 迷人 的 文本 广告 ， 其 中 图 像 
标题 生成 或 图 像 注释 对 于 图 像 检索 非常 有 用 , 并 且 用 户 可 能 需要 检索 表示 某 些 概念 的 图 像 〈 例 如 一 
只 狗 ) 。 

本 章 先 从 文本 自动 生成 的 前 三 个 技术 开始 讲解 ， 接 着 介绍 使 用 LSTM 生成 新 文本 。 为 此 ， 我 
们 将 下 载 格林 兄弟 的 一 些 民间 故事 的 文本 集 , 将 使 用 这 些 故事 来 训练 LSTM, 并 在 最 后 要 求 输出 一 
个 全 新 的 故事 。 我 们 将 通过 把 文本 分 解 成 字符 级 二 元 组 (n-gram， 其 中 n=2) 来 处 理 文本 ， 并 利 
唯一 的 二 元 组 来 制作 词汇 表 。 我 们 还 将 探索 实现 之 前 提 到 的 技术 和 方法 , 例如 贪 禁 采 样 或 集束 搜索 
预测 。 之 后 , 我 们 将 介绍 如 何 实 现 除 标准 LSTM 之 外 的 时 间 序 列 模型 , 例如 具有 罕 视 孔 连 接 和 GRU 
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的 LSTM。 

接 下 来 , 我 们 将 学 习 生 成 具有 比 字符 级 二 元 组 (比如 单个 单词 ) 更 好 的 输入 表示 的 文本 。 注意， 
与 字符 级 二 元 组 相 比 , 具有 One-Hot 编码 的 单词 特征 是 非常 低 效 , 因为 词汇 量 可 以 随 着 单词 快速 增 
长 。 因此， 解决 这 个 问题 的 一 个 好 方法 是 学 习 词 向 量 (或 使 用 预 处 理 的 向 量 ) ， 并 将 其 作为 LSTM 
的 输入 。 使 用 词 向 量 能 够 避免 维 数 灾难 。 在 现实 世界 的 这 类 问题 中 ， 词 汇 量 的 大 小 可 以 介 于 
10 000~1 000 000 之 间 。 然 而 ， 尽 管 词汇 量 很 大 ， 不 过 词 向 量具 有 固定 的 维度 。 


8.1 文本 到 文本 的 生成 


文本 到 文本 的 生成 技术 旨 在 对 给 定 文本 进行 变换 和 处 理 ， 从 而 获得 新 文本 ， 涵 盖 文 本 摘要 
(Document Summarization) 、 句 子 压 缩 (Sentence Compression) 、 句 子 融合 (Sentence Fusion ) 、 
文本 复述 生成 (Paraphrase Generation) 等 主要 方面 。 对 这 些 不 同 的 技术 ， 研 究 人 员 已 经 进行 了 很 
多 年 的 研究 , 且 获 得 的 研究 成 果 大 多 在 自然 语言 处 理 相 关 学 术 会 议 与 期 刊 上 进行 了 公开 发 表 , 例如 
ACL、EMNLP、NAACL、COLING、AAAI、IJCAI、SIGIR、INLG、ENLG 等 。 实 际 上 ， 从 某 种 
程度 上 而 言 ， 我 们 可 以 将 机 器 翻译 当 作 一 种 从 源 语 言 到 目标 语言 的 文本 生成 技术 。 当 然 ， 由 于 机 器 
翻译 是 相对 独立 的 一 个 研究 领域 ， 因 此 我 们 将 在 第 11 章 针 对 这 方面 的 内 容 进 行 单独 介绍 。 


8.1.1 文本 摘要 


文本 摘要 技术 是 通过 自动 分 析 给 定 的 文档 或 文档 集 , 抽取 其 中 的 要 点 信息 , 进而 输出 一 篇 短小 
的 摘要 (通常 包含 几 句 话 或 上 百 字 ) ， 该 摘要 中 的 内 容 可 直接 出 自 原文 ， 也 可 重新 撰写 生成 。 我 们 
进行 文本 摘要 的 目的 是 通过 对 原文 本 进行 压缩 、 提 炼 ,为 用 户 提供 简明 扼要 的 内 容 描述 。 关 于 文本 
摘要 ， 业 界 有 着 不 同 的 划分 标准 ， 具 体 如 下 : 

根据 所 要 处 理 的 文档 数量 不 同 , 文本 摘要 可 以 分 为 单 文本 摘要 和 多 文本 摘要 。 显 然 ， 单 文本 摘 
要 只 对 单 篇 文本 生成 摘要 ， 多 文本 摘要 则 对 一 个 文本 集 生成 摘要 。 

根据 提供 的 上 下 文 语 境 不 同 , 文本 摘要 可 以 分 为 主题 或 查询 无 关 的 摘要 和 主题 或 查询 相关 的 摘 
要 。 主题 或 查询 无 关 的 摘要 是 指 不 给 定 主 题 和 查询 的 条 件 下 对 文本 或 文本 集 生成 的 摘要 ; 主题 或 查 
询 相关 的 摘要 是 指 在 给 定 的 某 个 主题 或 查询 的 情况 下 能 够 阐明 该 主题 或 回答 该 查询 。 

根据 摘要 所 采用 的 方法 不 同 , 文本 摘要 可 以 分 为 生成 式 和 抽取 式 。 生 成 式 一 般 需 要 利用 自然 语 
言 理解 技术 对 文本 进行 语法 和 语义 方面 的 分 析 , 并 对 信息 进行 融合 , 利用 自然 语言 生成 技术 生成 新 
的 摘要 内 容 。 而 抽取 式 则 相对 比较 简单 ， 主 要 利用 不 同方 法 对 文档 结构 单元 (句子 、 段 落 等 ) 进行 
评价 ， 对 每 个 结构 单元 赋予 一 定 权重 值 ， 然 后 选择 最 重要 的 结构 单元 组 成 摘要 。 应 用 比较 多 的 是 抽 
取 式 ， 通 常 采 用 的 结构 单元 为 句子 。 

根据 摘要 的 应 用 类 型 不 同 ,摘要 可 以 分 为 标题 摘要 、 传 记 摘要 、 电 影 摘要 等 。 这 些 摘 要 一 般 是 
为 了 满足 某 些 特定 的 应 用 需求 , 比如 传记 摘要 的 目的 是 为 某 个 人 生成 一 个 概括 性 的 描述 , 一 般 涉及 
这 个 人 的 各 种 属性 : 姓名 、 性 别 、 地 址 、 出 生 、 兴 趣 爱 好 等 。 我 们 通过 浏览 某 个 人 的 传记 摘要 就 可 
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以 对 这 个 人 有 整体 上 的 认 知 。 

目前 ， 大 多 数 文本 摘要 方法 主要 是 基于 句子 抽取 ， 即 以 原文 中 的 句子 为 单位 进行 评估 与 抽取 。 
这 类 方法 易于 实现 且 能 最 大 程度 地 保证 摘要 句子 具有 良好 的 可 读 性 。 这 类 方法 的 两 个 关键 步骤 为 
一 是 对 文档 中 的 句子 进行 重要 性 计算 或 排序 , 二 是 筛选 出 重要 的 句子 组 合成 所 需 的 摘要 。 关 于 第 一 
个 步骤 ， 我 们 可 以 利用 基于 规则 的 方法 ， 通 过 句子 的 位 置 或 所 包含 的 线索 词 来 判定 句子 的 重要 性 ， 
也 可 以 采用 各 种 机 器 学 习 方 法 、 深 度 学 习 方法 ， 从 整体 上 对 句子 的 多 种 特征 进行 重要 性 的 分 类 、 回 
归 或 排序 。 对 于 第 二 个 步骤 ， 则 基于 第 一 个 步 又 的 结果 ， 需 要 考虑 句子 之 间 的 相似 性 ， 避 免 选择 重 
复 的 句子 (如 MMR 算法 ) ， 并 进一步 对 所 选择 的 摘要 句子 进行 连贯 性 排列 (如 自 底 向 上 法 ) ， 从 
而 获得 最 终 的 摘要 。 最 近 , 学 术 界 进一步 提出 了 基于 整数 线性 规划 的 方法 以 及 次 模 函 数 最 大 化 的 方 
法 ， 可 以 在 句子 选择 的 过 程 中 同时 考虑 句子 的 元 余 性 。 

而 压缩 式 文本 摘要 方法 则 不 同 , 它 考 虑 对 句子 进行 压缩 ， 以 便 在 较 短 长 度 限 制 下 让 摘要 涵盖 更 
多 的 内 容 。 这 里 代表 性 的 做 法 是 同时 进行 句子 选择 与 句子 压缩 ,能 够 获得 更 好 的 ROUGE 性 能 ( 注 : 
ROUGE 是 由 Lin 和 Hovy 提出 的 一 种 自动 摘要 评估 方法 ， 被 广泛 用 于 摘要 评测 任务 中 ) 。 另 外 
部 分 工作 还 利用 句子 融合 等 技术 来 对 已 有 句子 进行 转换 ， 获 取 新 的 摘要 内 容 。 

关于 进一步 的 生成 式 摘要 研究 , 就 是 通过 对 原文 档 进行 语义 理解 , 将 原文 档 表 示 为 深层 语义 形 
式 , 然后 分 析 获 得 摘要 的 深层 语义 表示 ,最 终 由 摘要 的 深层 语义 表示 来 生成 摘要 文本 。 其 中 的 一 种 
尝试 就 是 基于 抽象 意义 表示 (Abstract Meaning Representation，AMR) 发 展 出 生成 式 摘要 。 我 们 通 
过 这 类 方法 所 获得 的 摘要 句子 并 不 是 基于 原文 句子 ,而 是 利用 自然 语言 生成 技术 从 语义 表达 直接 生 
成 。 实际 上 ， 这 类 方法 相对 比较 复杂 ， 这 里 还 会 涉及 自然 语言 理解 与 自然 语言 生成 本 身 的 问题 , 具 
有 一 定 的 难度 。 


8.1.2 句子 压缩 与 融合 


句子 压缩 与 融合 技术 主要 用 于 文本 摘要 系统 中 , 以 便 生 成 信息 更 加 紧凑 的 摘要 , 使 得 我 们 获得 
的 摘要 效果 更 佳 。 具 体 来 看 ， 句 子 压缩 技术 主要 是 基于 一 个 长 句子 来 生成 一 个 短 句 子 ， 且 保证 该 短 
句子 能 够 保留 长 句子 中 的 重要 信息 ， 即 重要 信息 基本 不 丢失 、 短 句子 保持 通顺 。 句子 融合 技术 则 将 
两 个 或 多 个 包含 重复 内 容 的 相关 句子 合并 起 来 获得 一 个 句子 。 这 里 根据 目的 的 不 同 可 以 分 为 两 类 ， 
一 类 句子 融合 是 只 保留 多 个 句子 中 的 共同 信息 ,而 过 滤 其 中 无 关 的 细节 信息 (类 似 于 集合 运算 中 的 
取 交 集运 算 ) ， 另 一 类 则 是 只 过 滤 多 个 句子 之 间 的 重复 内 容 〈 类 似 于 集合 运算 中 的 取 并 集运 算 ) 。 
关于 句子 融合 问题 ，Regina Barzilay 和 Kathleen McKeown 提出 了 一 条 流水 线 算 法 ， 主 要 涉及 共 
同 信息 识别 (Identification of Common Information) 、 融 合 网 格 计算 (Fusion Lattice Computation ) 、 
网 格 线性 化 〈Lattice Linearization) 三 方面 。 另 外 ， 相 关 研 究 人 员 针 对 句子 融合 问题 提出 了 其 他 的 
方法 ,其 中 有 基于 结构 化 辨别 学 习 的 方法 .基于 整数 线性 规划 的 方法 和 基于 图 的 最 短路 径 的 方法 等 。 


8.1.3 文本 复述 生成 


文本 复述 生成 技术 是 指 对 给 定 文本 进行 改写 , 以 生成 全 新 的 复述 文本 , 通常 输出 文本 与 输入 文 
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本 在 表达 上 有 所 不 同 , 但 它们 所 表达 的 含义 基本 一 致 对 于 复杂 的 文本 复述 生成 而 言 , 研究 人 员 给 
出 了 基于 自然 语言 生成 的 方法 、 基 于 机 器 翻译 的 方法 与 基于 支点 (Pivot) 的 方法 等 。 其 中 ， 基 于 
自然 语言 生成 的 方法 是 模拟 人 类 的 思维 模式 , 先 对 输入 的 句子 进行 语义 理解 , 得 到 该 句子 的 语义 表 
示 , 再 基于 得 到 的 语义 表示 生成 新 的 句子 。 基 于 机 器 翻译 的 方法 是 将 文本 复述 生成 问题 看 成 是 单 语 
言 机 器 翻译 问题 , 并 通过 现 有 机 器 翻译 模型 为 给 定 文本 生成 复述 文本 。 基 于 支点 的 方法 则 是 将 当前 
语言 中 的 输入 文本 翻译 到 另 一 种 语言 (支点 ) ， 再 将 翻译 获得 的 文本 再 次 翻译 回 当前 语言 。 

其 实 , 文本 复述 生成 技术 具有 广泛 的 应 用 前 景 , 例如 在 机 器 翻译 时 , 我 们 可 以 利用 文本 复述 技 
术 对 复杂 输入 文本 进行 简化 处 理 ， 从 而 提升 整体 翻译 效果 。 在 儿童 教学 领域 , 我 们 可 以 利用 文本 复 
述 技术 将 上 涩 难 懂 的 文本 简化 处 理 为 儿童 容易 理解 的 文本 。 

然而 , 目前 能 够 为 给 定 文本 生成 具有 较 小 差异 的 复述 文本 , 但 在 文本 生成 的 质量 上 面临 着 一 些 
挑战 , 主要 是 因为 对 于 改写 甚 多 的 复述 文本 而 言 难以 做 到 两 点 : 既 要 做 到 保证 其 与 原文 本 语义 的 一 
致 性 ， 又 要 做 到 该 文本 的 可 读 性 。 


8.2 意义 到 文本 的 生成 


在 计算 语言 学 领域 ， 大 多 数 研究 人 员 都 遵循 的 语义 研究 原则 是 建立 在 “ 真 值 条 件 〈Truth 
Condition) ”的 基础 上 ， 认 为 寻找 到 了 能 够 使 自然 语言 语句 成 真 的 条 件 ， 即 在 某 种 程度 上 刻画 了 自 
然 语 言 的 语义 。 

研究 人 员 在 真 值 假设 基础 上 普遍 采用 逻辑 的 方法 对 语义 进行 表征 ， 并 分 别 从 模型 论 (Model 
Theory) 和 证 明 论 (Proof Theory) 两 个 角度 进行 研究 ， 所 以 大 多 数 情况 下 这 种 类 型 的 语义 也 被 称 
为 逻辑 语义 。 

其 实 ， 意 义 到 文本 的 生成 和 组 合 语 义 分 析 (Compositional Semantic Parsing) 密切 相关 ， 语义 
分 析 旨 在 对 线性 的 词 序 列 进行 自动 句法 语义 解析 并 得 到 其 真 值 条 件 。 由 于 我 们 在 分 析 过 程 中 遵循 了 
雷 格 的 组 合 原 则 (Principle of Compositionality) ， 因 此 也 称 为 组 合 语义 分 析 ， 以 便 同 分 布 式 语义 
(Distributional Semantics) 相 区 别 。 作 为 自然 语言 处 理 中 的 一 个 核心 技术 , 组 合 语义 在 深度 语义 理 
解 方面 起 着 关键 性 的 作用 , 在 智能 问答 、 机 器 翻译 等 多 个 自然 语言 处 理 核心 任务 中 有 着 良好 的 应 用 。 
从 问题 自身 的 定义 来 看 ， 其 实意 义 到 文本 的 生成 与 组 合 语义 分 析 是 一 对 互 逆 的 自然 语言 处 理 任 务 。 
接 下 来 ， 我 们 从 基于 深层 语法 的 文本 生成 、 基 于 同步 文法 的 文本 生成 两 方面 做 相关 介绍 。 


8.2.1 基于 深层 语法 的 文本 生成 


在 自然 语言 处 理 研究 的 早期 阶段 , 计算 机 语言 学 起 到 了 很 大 的 作用 , 因为 计算 语言 学 家 从 形式 
化 、 可 计算 两 方面 对 自然 语言 进行 了 建 模 , 并 提出 了 和 旨 在 解释 语言 运作 机 理 的 一 系列 句法 语义 模型 ， 
进而 依据 这 些 模型 构建 了 自然 语言 处 理 系统 。 

而 深层 语法 复杂 度 较 高 ， 如 何 构造 对 错综复杂 的 语言 现象 具有 高 覆盖 度 (Broad Coverage) 的 
语法 规则 本 身 是 一 个 极 大 的 难题 。 以 上 研究 主要 是 对 原型 算法 进行 讨论 , 而 因为 真实 可 用 的 大 型 深 


第 8 章 利用 LSTM 自动 生成 文本 | 215 


层 语法 当时 没有 得 到 很 好 的 开发 , 以 上 研究 并 没有 呈现 极 具 代表 性 意义 的 经 验 结果 。 经 过 十 余年 的 
开发 ,研究 人 员 在 HPSG 理论 的 基础 上 开发 出 了 英语 资源 语法 (English Resource Grammar, ERG ) ， 
这 是 一 个 比较 成 功 的 具有 较 高 覆盖 率 的 深层 语法 规则 系统 ， 而 围绕 ERG 所 展开 的 文本 生成 研究 也 
取得 了 有 益 的 进展 。Carroll 和 Oepen 基于 ERG 和 真实 测试 数据 重新 讨论 了 基于 线 图 的 生成 技术 ， 
给 出 了 极 具 参考 意义 的 经 验 评 估 。 另 外, 他 们 提出 了 两 项 新 的 技术 来 改进 基于 合 一 语法 的 可 行 解 紧 
致 表示 (Compact Representation) 及 其 相关 解码 算法 一 一 选择 性 开 箱 (Selective Unpacking) ， 尤 
其 后 者 有 效 地 利用 了 判别 式 学 习 模型 来 改进 文本 生成 过 程 中 所 遇 到 的 歧义 消解 。 

相关 研究 在 二 十 世纪 八 九 十 年 代 取 得 了 丰硕 的 研究 成 果 , 一 系列 兼 具 语言 本 体 解释 力 和 可 计算 
性 的 语法 范式 (Grammar Formalism ) 被 提出 ， 如 组 合 范畴 语法 (Combinatory Categorial Grammar， 
CCG) 、 中 心 语 驱动 的 短语 结构 语法 (Head-Driven Phrase-Structure Grammar，HPSG) 等 。 不 同 于 
目前 句法 分 析 所 主要 使 用 的 上 下 文 无 关 文 法 (Context-Free Grammar，CFG) ， 上 述 语 法 范式 具有 
超越 上 下 文 无 关 的 表达 能 力 ， 其 语法 推导 过 程 往往 更 复杂 , 蕴含 更 多 的 信息 ,而 这 些 信息 可 以 用 来 
做 更 透明 的 语义 分 析 ， 简 而 言 之 , 这 些 深 层 语法 范式 能 够 更 好 地 支持 句法 语义 同步 的 语言 分 析 。 在 
深层 语法 的 支撑 下 , 通过 句法 语义 的 协同 推导 可 以 获取 自然 语言 的 组 合 语义 , 而 当 以 语义 表征 作为 
输入 ， 通 过 其 逆 过 程 可 以 完成 意义 到 文本 的 生成 。 

组 合 范畴 语法 是 一 个 广 受 自 然 语言 处 理 领域 学 者 关注 的 语法 范式 ， 其 设计 遵循 了 类 型 透明 
(Type Transparency) 的 原则 , 具有 精简 的 语法 语义 接口 , 常常 被 语义 分 析 和 文本 生成 模型 所 采用 。 
White 和 Baldridge 讨论 了 如 何 将 线 图 生成 法 与 组 合 范畴 语法 结合 ， 并 开发 了 开源 的 基于 组 合 范 畴 
语法 的 句子 实现 (Realization) 工 具 一 一 OpenCCG。White 又 与 其 他 学 者 联合 提出 了 一 些 进 一 步 改 

进 文本 生成 的 算法 。 


8.2.2 ”基于 同步 文法 的 文本 生成 


在 过 去 的 20 年 间 ， 统 计 句 法 分 析 与 统计 机 器 翻译 是 公认 的 两 个 取得 长 足 进步 的 自然 语言 处 理 
技术 。 除 了 从 成 熟 的 统计 句法 分 析 中 借鉴 成 功 经 验 ( 如 判别 式 消 歧 ) 之 外 ,不 少 学 者 尝试 复 用 成 功 
的 机 器 翻译 模型 来 完成 文本 生成 .机 器 翻译 的 目标 是 将 某 种 自然 语言 语句 翻译 成 男 一 种 自然 语言 语 
句 , 并 尽量 保持 意义 不 变 ; 而 文本 生成 则 可 以 视 为 将 某 种 形式 的 语言 语句 翻译 成 一 种 自然 语言 语句 ， 
二 者 具有 极 强 的 可 比 性 。 

Chiang 提出 了 基于 层次 短语 的 翻译 模型 (Hierarchical Phrase-Based Model) ， 其 核心 是 利用 同 
步 上 下 文 无 关 文 法 (Synchronous Context-Free Grammar) 来 协同 源 语言 语句 的 解析 和 目标 语言 语句 
的 生成 。 目 前 同步 文法 已 经 被 借鉴 到 文本 生成 的 研究 中 。Wong 与 Mooney 两 位 作者 讨论 了 两 种 形 
式 语言 用 于 表征 意义 : 第 一 种 是 用 于 指挥 机 器 人 动作 的 形式 语言 , 第 二 种 是 无 变量 的 数据 库 检索 语 
言 ; 而 Lu 与 Ng 则 针对 表达 能 力 极 强 的 类 型 入 表达 式 (Typed 和 -expression) 展开 研究 。 两 项 研 
究 的 一 个 共同 点 是 构建 形式 语言 的 基于 树 的 结构 , 再 将 相关 结构 与 待 生 成 的 自然 语言 的 树 结构 建立 
一 致 性 对 应 ， 从 而 完成 文本 生成 任务 ; 另 一 个 共同 点 则 是 广泛 地 使 用 现 有 的 机 器 翻译 技术 (包括 开 
源 软件 等 ) 来 进行 文法 抽取 、 解 码 等 。 
国内 语言 学 界 与 计算 语言 学 界 针对 自然 语言 语义 的 形式 化 研究 较 少 ,针对 汉语 进行 全 方面 组 合 
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语义 刻画 的 研究 目前 尚 属 空白 。 从 事 自然 语言 处 理 的 研究 人 员 也 较 少 涉猎 深层 语言 结构 处 理 问 题 ， 
而 对 意义 到 文本 的 生成 研究 则 更 是 鲜 有 ， 很 少 能 见 到 相关 学 术 成 果 发 表 在 重要 学 术 会 议和 期 刊 上 。 


8.3 ”数据 到 文本 的 生成 


数据 到 文本 的 生成 技术 指 根据 给 定 的 数值 数据 生成 相关 文本 , 例如 基于 数值 数据 生成 天 气 预报 
文本 、 体 育 新 闻 、 财 经 报道 、 医 疗 报告 等 。 数 据 到 文本 的 生成 技术 具有 极 强 的 应 用 前 景 ， 目 前 该 领 
域 已 经 取得 了 很 大 的 研究 进展 , 业界 已 经 研制 出 面向 不 同 领域 和 应 用 的 多 个 生成 系统 。 针 对 数据 到 
文本 的 生成 技术 研究 主要 集中 于 少数 几 个 单位 , 例如 英国 阿 伯 丁 大 学 、 英 国 布 莱 顿 大 学 、 爱 丁 堡 大 
学 等 ， 相 关 研 究 成 果 主 要 发 表 在 INLG、ENLG 等 专业 学 术 会 议 上 。 

英国 阿 伯 丁 大 学 的 Ehud Reiter 在 三 阶段 流水 线 模型 的 基础 上 提出 了 数据 到 文本 的 生成 系统 
的 一 般 框 架 ， 如 图 8-1 所 示 。 


Event Numeric Input Data 
Input Data 


Signal Analysis 


Patterns 


Data Interpretation 


Messages, 
Relations 


Document Planning 


Selected msgs, 
doc/rhet struct 


Microplanning and 
Realisation 


1 


Text 
图 8-1 数据 到 文本 的 生成 系统 的 一 般 框架 


其 中 : 

信号 分 析 (Signal Analysis) 模块 的 输入 为 数值 数据 ， 通 过 利用 各 种 数据 分 析 方 法 检测 数据 中 
的 基本 模式 ， 输 出 离散 数据 模式 。 例 如 股票 数据 中 的 峰值 、 较 长 期 的 增长 趋势 等 。 该 模块 与 具体 应 
用 领域 和 数据 类 型 相关 ， 针 对 不 同 的 应 用 领域 与 数据 类 型 输出 的 数据 模式 是 不 同 的 。 

数据 阐释 (Data Interpretation) 模块 的 输入 为 基本 模式 与 事件 ， 通 过 对 基本 模式 和 输入 事件 进 
行 分 析 而 推断 出 更 加 复杂 和 抽象 的 消息 , 同时 推断 出 它们 之 间 的 关系 , 最 后 输出 高 层 消息 以 及 消息 
之 间 的 关系 。 例 如 针对 股票 数据 ， 如 果 跌 幅 超 过 某 个 值 就 可 以 创建 一 条 消息 。 还 需要 检测 消息 之 间 
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的 关系 , 例如 因果 关系 、 时 序 关系 等 。 值 得 说 明 的 是 ,数据 阔 释 模块 并 不 是 在 所 有 文本 生成 系统 中 
都 需要 , 例如 在 天 气 预 报 文本 生成 系统 中 ,基本 的 模式 足以 满足 要 求 ， 因 此 并 不 需要 采用 数据 阐释 
模块 。 

文档 规划 (Document Planning) 模块 的 输入 为 消息 及 关系 ,分 析 决 定 哪些 消息 和 关系 需要 在 文 
本 中 提 及 ， 同 时 要 确定 文本 的 结构 ， 最 后 输出 需要 提 及 的 消息 以 及 文档 结构 。 从 更 高 的 层次 来 说 ， 
信号 分 析 与 数据 痔 释 模 块 会 产生 大 量 的 消息 、 模 式 和 事件 ， 但 文本 通常 长 度 受 限 ， 只 能 描述 其 中 的 
一 部 分 ， 因此 文档 规划 模块 必须 确定 文本 中 需要 说 明 的 消息 。 一 般 可 根据 专家 知识 、 消 息 的 重要 性 
及 新 颖 性 等 来 进行 选择 和 确定 。 当 然 , 该 模块 与 领域 也 相关 , 不 同 领域 中 对 消息 的 选择 所 考虑 的 因 
素 不 一 样 ， 文 档 的 结构 也 会 不 一 样 。 

微 规划 与 实现 〈Microplanning and Realization ) 模块 的 输入 为 选中 的 消息 及 结构 ， 通 过 自然 语 
言 生成 技术 输出 最 终 的 文本 。 该 模块 主要 涉及 对 句子 进行 规划 以 及 句子 的 实现 , 要 求 最 终 实现 的 名 
子 具有 正确 的 语法 、 时 态 和 拼写 ， 同 时 采用 准确 的 指 代表 达 。 

目前 , 业界 已 经 研制 了 面向 多 个 领域 的 数据 到 文本 的 生成 系统 , 这 些 系统 的 框架 与 上 述 一 般 杠 
架 并 无 大 的 差别 ， 部 分 系统 将 上 述 框架 中 的 两 个 模块 合并 为 一 个 模块 ， 或 者 省 去 其 中 一 个 模块 。 数 
据 到 文本 的 生成 技术 在 天 气 预报 领域 应 用 得 最 为 成 功 , 业界 研制 了 多 个 系统 对 天 气 预 报 数据 进行 总 
结 ， 生 成 天 气 预报 文本 。 例 如 ，FoG 系统 能 够 从 用 户 操作 过 的 数据 中 生成 双语 天 气 预 报 文本 ; 
SumTime 系统 能 够 生成 海洋 天 气 预报 文本 ， 实 验 评测 表明 用 户 有 时 更 倾向 于 阅读 SumTime 所 生 
成 的 天 气 预报 ， 而 非 专家 撰写 的 天 气 预报 。 此 外 ， 英 国 阿 伯 丁 大 学 的 Anja Belz 提出 了 概率 生成 
模型 进行 天 气 语 言 文本 的 生成 。Anja Belz 和 Eric Kow 进一步 基于 天 气 预 报 数据 分 析 对 比 了 多 种 
数据 到 文本 的 生成 系统 , 结果 表明 采用 自动 化 程度 较 高 的 方法 并 不 会 降低 文本 生成 质量 , 同时 文本 
质量 的 自动 评价 方法 会 低估 基于 手工 规则 构建 的 系统 ， 而 高 估 自 动 化 系统 。 

由 于 数据 到 文本 的 生成 技术 的 巨大 应 用 价值 , 业界 成 立 了 多 家 从 事 文 本 生成 的 公司 , 能 够 为 多 
个 行业 基于 行业 数据 生成 行业 报告 或 新 闻 报 道 , 从 而 节省 大 量 的 人 力 。 比较 知名 的 公司 有 ARRIA、 
AI (Automated Insights) 、Narrative Science 等 。 其 中 ARRIA 是 一 家 总 部 设 在 欧洲 的 公司 ， 其 前 
称 为 Data2Text， 由 来 自 阿 伯 丁 大 学 的 两 名 教授 Ehud Reiter 与 Yaji Sripada 创办 ， 后 来 自然 语言 
生成 领域 的 另 一 位 科学 家 Robert Dale 也 加 入 了 该 公司 , 该 公司 的 核心 技术 为 ARRIA NLG 引擎 。 
AI 则 是 一 家 美国 人 工 智能 公司 ， 由 一 名 思科 的 前 工程 师 Robbie Allen 创办 ， 最 早 基于 体育 数据 生 
成 文本 摘要 ， 目 前 能 为 包括 金融 、 个 人 健身 、 商 业 智能 、 网 站 分 析 等 在 内 的 多 个 领域 的 数据 生成 文 
本 报告 ， 其 核心 技术 为 WordSmith NLG 引擎 。 目 前 ，AI 公司 已 经 为 美 联 社 等 多 家 单位 生成 数 亿 
篇 新 闻 报道 ， 造 成 了 巨大 的 影响 力 。Narrative Science 则 是 根据 美国 西北 大 学 的 一 个 研究 项 目 
StatsMonkey 发 展 而 来 的 ， 其 核心 技术 为 Quill NLG 引擎 。Forbes 是 Narrative Science 的 一 个 典 
型 客户 , 在 网 站 上 有 一 个 Narrative Science 专 页 , 全 部 文章 都 是 由 Narrative Science 自动 生成 的 。 
下 面 给 出 一 篇 自动 生成 的 样 例 新 闻 ， 如 图 8-2 所 示 。 
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Earnings for Alcoa Projected to Rise 


By Nanative Science 


+ Commant Now = + Fosow Comments 


Wall Street is high on Alcoa, expecting it to report earnings that are 
Up 28% from a year ago when it reports its second-quarter earnings 
on Wednesday, July 8, 2015. The consensus estimate js 23 cents per 
share, up from earnings of 18 cents per share a year ago. 


The consensus estimate has fallen over the past three months, from 
27 cents. Analysts are expecting earnings of 95 cents per share for 
the fiscal year. Analysts look for revenue to decrease 1% 
year-over-year to $5.79 billion for the quarter, after being $5.84 
billion a year ago. For the year, revenue is projected to roll in at 
$23.63 billion. 


Revenue dropped year-over-year in the first quarter, ending a 
two-quarter streak of growing revenue. 


Alcoa is a global producer of aluminum. Itis mainly engaged in the 
Production and management of primary aluminum, fabricated 
aluminum, and alumina combined. It is actively involved in a range 
of industries, including technology, mining, smelting, and recycling. 
Kaiser Aluminum Corp., also in the metal mining industry, will 
report earnings on Wednesday, July 22, 2015. Analysts are expecting 
earnings of $1.19 per share for Kaiser Aluminum, up 13% from last 
year’s earnings of $1.05 per share. Other companies in the metal 
mining industry with upcoming earnings release dates include: 
Noranda Aluminum Holding and Aluminum Corp. of China Limited. 


Earnings estimates provided by Zacks. 


图 8-2 Narrative Science 自动 生成 的 样 例 新 闻 


接 下 来 ， 我 们 将 着 手 利 用 LSTM 模型 逐步 实现 文本 自动 生成 项 目 。 


8.4 文本 自动 生成 前 的 数据 准备 


首先 ， 我 们 将 讨论 用 于 文本 生成 的 数据 以 及 用 于 清理 数据 的 各 种 预 处 理 步骤 。 


8.4.1 数据 集 


首先 ,我 们 看 一 下 数据 集 的 样子 , 以 便当 看 到 生成 的 文本 时 , 根据 训练 数据 评估 它 是 否 有 意义 。 
我 们 将 从 网 站 https://www.cs.cmu.edu/~spok/grimmtmp/ 上 下 载 前 100 本 书 。 这 是 格林 兄弟 的 一 套 书 
〈 从 德语 到 英语 ) 的 译文 ， 与 第 6 章 循环 神经 网 络 中 用 于 证 明 RNN 性 能 的 文本 相同 。 


首先 ， 使 


脚本 自动 从 网 站 下 载 前 100 本 书 ， 代 码 如 下 : 


url = 'https://www.cs.cmu.edu/~spok/grimmtmp/"' 
# 如 果 有 必要 的 话 ， 创 建 一 个 目录 


dir name = "Stories" 
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if not os-path-exists (dir name) : 
os.mkdir (dir name) 
def maybe download (filename): 
""" 如 果 文件 不 存在 就 下 载 """ 
print ('Downloading file: ', dir name+ os.sep+filename) 
if not os.path.exists (dir nametos.septfilename): 
filename, = urlretrieve(url + filename, dir namet+os.sep+filename) 


else: 
print('File ',filename, ' already exists.') 
return filename 
num files = 100 
filenames = [format (i, '03d')+'.txt' for i in range(1,101)] 
for fn in filenames: 


maybe_download (fn) 


我 们 将 展示 从 两 个 随机 挑选 的 故事 中 提取 的 示例 文本 片段 。 
以 下 是 第 一 个 文本 片段 (0.01.txt): 


The king's daughter began to cry, for she was afraid of the cold frog 
which she did not like to touch, and which was now to sleep in her 
pretty, clean little bed. But the king grew angry and said, "He who 
helped you when you were in trouble ought not afterwards to be 
despised by you." So she took hold of the frog with two fingers, 
carried him upstairs, and put him in a corner, but when she was in 
bed he crept to her and said, "I am tired, I want to sleep as well as 
you, lift me up or I will tell your father." At this she was terribly 
angry, and took him up and threw him with all her might against the 
wall. "Now, will you be quiet, odious frog," said she. But when he 
fell down he was no frog but a king's son with kind and beautiful 
eyes. He by her father's will was now her dear companion and 
husband. Then he told her how he had been bewitched by a wicked 
witch, and how no one could have delivered him from the well but 
herself, and that to-morrow they would go together into his kingdom. 


第 二 个 文本 片段 〈0.02.tkt) 如 下 : 


Next morning, when the loss was reported abroad, all the people cried 
loudly 'the queen is a man-eater. She must be judged, and the king 
was no longer able to restrain his councillors. Thereupon a trial was 
held, and as she could not answer, and defend herself, she was 
condemned to be burnt at the stake. The wood was got together, and 
when she was fast bound to the stake, and the fire began to burn 
round about her, the hard ice of pride melted, her heart was moved by 


repentance, and she thought "if I could but confess before my death 
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that I opened the door.' Then her voice came back to her, and she 
cried out loudly 'Yes，maryr I did it, and straight-way rain fell 
from the sky and extinguished the flames of fire, and a light broke 
forth above her, and the virgin mary descended with the two little 
sons by her side, and the new-born daughter in her arms. She spoke 
kindly to her, and said 'he who repents his sin and acknowledges it, 
is forgiven.' Then she gave her the three children, untied her 


tongue, and granted her happiness for her whole life. 


8.4.2” 预 处 理 数据 


在 预 处 理 方面 , 我 们 首先 使 所 有 文本 字母 变 为 小 写 , 并 将 文本 分 解 成 字符 n-gram, 其 中 n 二 2。 
请 考虑 以 下 旬 子 : 


The king was hunting in the forest. 
这 将 分 解 为 一 系列 n-gram， 如 下 所 示 : 
| 


我 们 将 使 用 字符 级 别 的 双 字 母 ， 因 为 与 使 用 单个 单词 相 比 ， 它 大 大 减少 了 词汇 量 。 此 外 , 我们 
将 使 用 特殊 标记 CUNK) 蔡 换 在 语料库 中 出 现 少 于 10 次 的 所 有 双 字 母 组 ， 表 示 该 二 元 组 未 知 。 这 
有 助 于 我 们 进一步 减少 词汇 量 。 


8.5 实现 LSTM 


本 节 将 讨论 LSTM 实现 的 细节 。 虽 然 TensorFlow 中 有 子 库 已 经 实现 了 现成 的 LSTM， 但 我 们 
将 从 头 开始 实现 ,这 将 非常 有 价值 , 因为 在 现实 世界 中 可 能 存在 无 法 直接 使 用 这 些 现成 组 件 的 情况 。 
此 代码 位 于 ch8 文件 夹 中 的 8_lstm_for text_generation.ipynb 代码 文件 中 。 但 是 ， 我 们 还 将 包含 一 
个 范例 ， 其 中 将 展示 如 何 使 用 现 有 的 TensorFlow RNN API， 该 API 在 位 于 同一 文件 夹 中 的 
8_lstm_ word2vec_ mn _apiipynb 代码 文件 中 。 在 这 里 ， 我 们 将 讨论 8_lstm_for_text_generation.ipynb 
文件 中 可 用 的 代码 。 

首先 ， 我 们 将 讨论 用 于 LSTM 的 超 参数 及 其 效果 。 其 次 ， 将 讨论 实现 LSTM 所 需 的 参数 〈 权 
重 值 和 偏差 ) 。 接 着 ， 将 讨论 如 何 使 用 这 些 参 数 来 编写 LSTM 中 发 生 的 操作 。 之 后 ， 我 们 将 了 解 
如 何 逐 步 地 将 数据 提供 给 LSTM。 接 下 来 ， 将 讨论 如 何 使 用 梯度 裁剪 实现 参数 以 进行 优化 。 最 后 ， 
我 们 将 研究 如 何 使 用 学 习 到 的 模型 输出 预测 , 这 些 预 测 基本 上 是 二 元 组 , 它们 最 终 将 组 成 一 个 有 意 
义 的 故事 。 
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8.5.1 定义 超 参数 


首先 ， 我 们 将 定义 LSTM 所 需要 的 一 些 超 参数 : 


# 隐藏 状态 变量 中 的 神经 元 数量 
num nodes = 128 


# 一 个 batch 中 要 处 理 的 数据 点 数 


batch size = 64 


# 在 优化 期 间 展开 的 时 间 步 数 
num_unrollings = 50 
# 使 用 dropout 
dropout = 0.2 


以 下 给 出 了 每 个 超 参 数 的 说 明 。 


@ num nodes: 表示 细胞 ( Cell ) 记忆 状态 中 的 神经 元 数量 。 当 数据 充足 时 ， 增 加 细胞 记忆 
的 复杂 性 将 给 出 更 好 的 性 能 ， 与 此 同时 ， 它 减 慢 了 计算 速度 。 

@@ batch size: 这 是 一 步 处 理 的 数据 量 。 增 加 批量 的 大 小 有 助 于 提高 模型 的 性 能 ， 但 会 带 来 
更 高 的 内 存 要 求 。 

@ num unrollings: 在 截断 BPTT 中 使 用 的 时 间 步 数 。num_unrollings 步 数 越 高 ， 性 能 越 好 ， 
但 是 它 将 增加 内 存 需 求 和 计算 时 间 。 

@ dropout: 使 用 dropout (正则 化 技术 ) 来 减少 模型 的 过 拟 合 ， 并 产生 更 好 的 结果 。dropout 
在 将 输入 、 输 出 、 状 态 变量 传递 到 它们 的 连续 操作 之 前 ， 随 机 地 从 输入 、 输 出 、 状 态 变 
量 中 删除 信息 。 这 在 学 习 过 程 中 产生 宛 余 特征 ， 从 而 导致 更 好 的 性 能 。 


8.5.2 ”定义 参数 


现在 我 们 将 为 LSTM 的 实际 参数 定义 TensorFlow 变量 。 

首先 ， 我 们 将 定义 输入 门 参数 。 

@ ix: 这 些 是 将 输入 连接 到 输入 门 的 权重 值 。 

@ im: 这 些 是 将 隐藏 状态 连接 到 输入 门 的 权重 值 。 

@ ib: 这 是 偏差 项 。 

这 里 我 们 将 定义 参数 : 

#Input gate (it) - 写 入 细胞 状态 的 记忆 量 

# 将 当前 输入 连接 到 输入 门 

ix= tf.Variable (tf.truncated normal([vocabulary size, m nodes],stddev=0.02)) 
# 将 先前 的 隐藏 状态 连接 到 输入 门 


im = tf.Variable (tf.truncated normal ([num nodes, num nodes],stddev=0.02)) 


# 输入 门 的 偏差 
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ib = tf.Variable (tf-random uniform([1，num nodes],-0.02, 0.02)) 


类 似 的 ， 我 们 将 为 遗忘 门 、 候 选项 (用 于 存储 器 单元 数 的 计算 ) 和 输出 门 定义 权重 值 。 
遗忘 门 定义 如 下 : 

# 遗 忘 门 (ft) - 从 细胞 状态 丢弃 多 少 记忆 

# 将 当前 输入 连接 到 遗忘 站 


fx = tf.Variable(tf.truncated normal ([vocabulary size, num nodes],stddev=0.02)) 


# 将 之 前 的 隐藏 状态 连接 到 遗忘 门 


fm = tf.Variable (tf.truncated normal([num nodes, num nodes],stddev=0.02)) 
# 遗忘 门 的 偏差 


fb = tf.Variable (tf.random uniform([1，num nodes],-0.02, 0.02)) 


候选 项 (用 于 计算 细胞 状态 ) 定 义 如 下 : 


#Ccandidate value (c~t) - 用 于 计算 当前 的 细胞 状态 

# 将 当前 输入 连接 到 候选 项 

cx = tf.Variable (tf.truncated normal([vocabulary size, num nodes],stddev=0.02)) 
# 将 之 前 的 隐藏 状态 连接 到 候选 项 

cm = tf.Variable(tf.truncated normal ([num_ nodes, num nodes],stddev=0.02)) 


# 候选 项 的 偏差 


cb = tf.Variable (tf.random uniform([1，num nodes],-0.02,0.02)) 


输出 门 定义 如 下 : 


# 输 出 门 - 从 细胞 状态 输出 多 少 记忆 

# 将 当前 输入 连接 到 输出 门 

ox = tf.Variable (tf.truncated normal([vocabulary size, num nodes],stddev=0.02)) 
# 将 先前 的 隐藏 状态 连接 到 输出 门 


om = tf.Variable (tf.truncated normal([num nodes, num nodes],stddev=0.02)) 


# 输 出 门 的 偏差 


ob = tf.Variable (tf.random uniform([1l, num nodes],-0.02,0.02)) 


接 下 来 ， 我 们 将 为 状态 和 输出 定义 变量 。 它 们 是 TensorFlow 变量 ， 表 示 LSTM 细胞 的 内 部 状 
态 和 外 部 隐藏 状态 。 在 定义 LSTM 计算 的 操作 时 ， 我 们 使 用 给 control_.ies(.…) 函 数 定义 这 些 操作 ， 
以 便 用 我 们 计算 的 最 新 细胞 状态 和 隐藏 状态 值 更 新 。 


# 变 量 在 展开 时 保存 状态 
# 隐 藏 状态 


saved output = tf.Variable(tf.zeros([batch size， num nodes]),trainable=False, 


name='train hidden') 
# 细胞 状态 


saved state = tf.Variable (tf.zeros([batch size, num nodes]),trainable=False, 


name='train cell') 
# 验 证 阶段 的 相同 变量 


saved valid output = tf.Variable (tf.zeros([l, num nodes]),trainable=False, 
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name="'valid hidden') 
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saved valid state = tf.Variable(tf.zeros([l, num nodes]),trainable=False, 


name="'valid cell') 


最 后 ， 我 们 将 定义 softmax 层 以 获得 实际 预测 : 


#Softmax 分 类 器 的 权重 值 和 偏差 


w= tf.Variable (tf.truncated normal([num nodes, 


vocabulary sizel],stddev=0.02)) 


b = tf.Variable (tf.random uniform([vocabulary size],-0.02,0.02)) 


注意 , 我 们 使 用 的 是 正 态 分布 , 具有 和 零 均值 和 小 的 标准 偏差 。 这 是 很 好 的 ， 因 为 我 们 的 模型 是 

一 个 简单 的 单个 LSTM 细胞 。 然 而 ， 当 网 络 变 得 更 深 时 (多 个 LSTM 细胞 堆 释 在 一 起 ) ， 需 要 更 
精细 化 的 初始 化 技术 。 一 种 这 样 的 初始 化 技术 被 称 为 Xavier 初始 化 ， 由 Glorot 和 Bengio 在 他 们 的 
论文 《Understanding the difficulty of training deep feedforward neural networks》 中 提出 (第 13 届 国 
际 人 工 智能 与 统计 会 议论 文集 ，2010 年 ) 。 这 可 以 作为 TensorFlow 中 的 变量 初始 化 器 使 用 
(https://www.tensorflow.org/api_docs/python/tf/contrib/layers/xavier_initializer) 。 


8.5.3 定义 LSTM 细胞 及 其 操作 


通过 


定义 权重 值 和 偏差 可 以 在 LSTM 细胞 中 定义 操作 ， 这 些 操作 包括 以 下 内 容 : 


计算 输入 门 和 遗忘 门 产生 的 输出 。 
计算 内 部 细胞 状态 。 

计算 输出 门 产生 的 输出 。 

计算 外 部 隐藏 状态 。 


以 下 是 LSTM 细胞 的 实现 情况 : 


Gef lstm celll(i, o, state): 


input gate = tf.sigmoid (tf.matmul (i, ix) +tf.matmul(o, im) + ib) 
forget gate = tf.sigmoid(tf.matmul (i, fx) +tf.matmul(o, fm) + fb) 
update = tf.matmul (i, cx) + tf.matmul(o, cm) + cb 

state = forget gate * state + input gate * tf.tanh(update) 
output gate = tf.sigmoid(tf.matmul (i, ox) +tf.matmul(o, om) + ob) 
return output gate * tf.tanh(state), state 


8.5.4 定义 输入 和 标签 


现在 我 们 将 定义 训练 输入 《展开 训练 ) 和 标签 。 训 练 输入 是 具有 num_unrolling 批量 数据 〈 序 
列 ) 的 列表 ， 其 中 每 批 数据 具有 [batch_size，vocabulary_size] 大 小 : 


train inputs, train labels = [],[] 
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for ui in range (num unrollings): 


train inputs.append (tf.placeholder (tf.float32, shape=[batch size,vocabulary 


size],name='train inputs %d'%ui)) 


train labels.append (tf.placeholder (tf.float32, shape=[batch size,vocabulary_ 


size], name = "train labels %d'%ui)) 


我 们 为 验证 输入 和 输出 定义 占 位 符 ， 这 些 占 位 符 将 用 于 计算 验证 困惑 度 (Perplexity) 。 不 过 ， 
在 这 里 我 们 不 使 用 输入 进行 与 验证 相关 的 计算 。 


# 验证 数据 占 位 符 


valid inputs = tf.placeholder (tf.float32, shape=[l,vocabulary size], 


name='valid inputs') 


valid labels = tf.placeholder (tf.float32, shape=[l,vocabulary size],name = 
'valid labels') 


8.5.5 ”定义 处 理 序列 数据 所 需 的 序列 计算 


在 这 里 ， 我 们 将 以 循环 方式 计算 单 次 展开 训练 输入 所 产生 的 输出 。 我 们 还 将 使 用 Dropout ( 参 
考 Srivastava 和 Nitish 等 人 的 《Dropout: 4 Simple Way to Prevent Neural Netrworks from Overfitting》， 
Journal of Machine Learning Research 15 (2014) : 1929-1958) ， 因 为 这 样 可 以 稍微 提高 性 能 。 最 
后 ， 通 过 计算 的 所 有 隐藏 输出 值 来 为 训练 数据 计算 logit 值 : 


# 训 练 相关 的 推理 逻辑 ， 在 所 有 展开 训练 输入 中 保存 计算 的 状态 输出 用 于 计算 损失 
outputs = list() 


# 这 两 个 Python 变量 在 展开 的 每 个 步 长 中 欠 代 更 新 

output = saved output 

state = saved state 

## 对 于 展开 中 的 所 有 步 数 ， 循 环 计算 隐藏 状态 输出 ) 和 细胞 状态 (状态 ) 
for i in train inputs: 

output, state = lstm cell(i, output, state) 

output = tf.nn.dropout (output, keep_ prob=1.0-dropout) 

# 增 加 每 个 计算 的 输出 值 


outputs .append (output) 


# 计 算得 分 值 


logits = tf.matmul (tf.concat (axis=0, values=outputs), w) + b 
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接 下 来 , 在 计算 损失 之 前 , 我 们 必须 确保 输出 和 外 部 隐藏 状态 被 更 新 为 之 前 计算 的 最 新 值 。 这 
可 以 通过 添加 给 control_dependencies 条 件 并 将 logit 和 loss 计算 保持 在 以 下 条 件 来 实现 : 


with tf.control dependencies([saved output.assign(output), 
saved state.assign(state)]): 

# 分 类 器 

loss = tf.reduce mean( tf.nn.softmax cross_ 

entropy with logits v2 (logits=logits, labels=tf.concat (axis=0, 


Values=train labels))) 


我 们 还 定义 了 验证 数据 的 前 向 传播 逻辑 。 注 意 ， 我 们 不 会 在 验证 期 间 使 用 dropout， 仅 限于 训 
练 期 间 : 


# 验 证 阶段 相关 的 推理 逻辑 

# 计 算 验 证 数据 的 LSTM 细胞 输出 

valid output, valid state = lstm celll( valid inputs, saved valid output, 
saved valid state) 

# 计 算 logits 

Valid logits = tf.nn.xw Plus bl(valid output, w, b) 


8.5.6 ”定义 优化 器 


本 节 将 定义 优化 过 程 。 我 们 将 使 用 一 种 称 为 Adam 的 先进 优化 器 , 它 是 迄今 为 止 最 好 的 基于 随 
机 梯度 的 优化 器 之 一 。 在 代码 中 ，gstep 是 一 个 变量 ， 用 于 随时 间 推 移 衰减 学 习 速率 。 我 们 将 在 下 
一 节 讨 论 细 节 。 此 外 ， 我 们 将 使 用 梯度 裁剪 来 避免 梯度 爆炸 。 


# 每 次 gstep 增加 时 衰减 学 习 率 

tf learning rate = tf.train.exponential decay(0.001,gstep,decay_ steps=1, 
decay_rate=0.5) 

# Adam 优化 器 和 梯度 裁剪 

optimizer = tf.train.AdamOptimizer (tf learning rate) 

gradients, Vv = zip(*optimizer.compute _ gradients (loss)) 

gradients, _ = tf.clip by global norm(gradients, 5.0) 


optimizer = optimizer.apply gradients( zip(gradients, v)) 


8.5.7” 随 着 时 间 的 推移 衰减 学 习 率 


如 前 所 述 , 我 们 使 用 衰减 学 习 率 而 不 是 恒定 的 学 习 率 。 随 着 时 间 的 推移 ， 衰减 学 习 率 是 深度 学 
习 中 用 于 实现 更 好 性 能 和 减少 过 度 拟 合 的 常用 技术 。 这 里 的 关键 思想 是 , 如 果 验 证 困惑 度 在 预定 数 
量 的 时 期 内 没有 减少 ， 就 降低 学 习 速率 例如 降低 0.5 倍 ) 。 让 我 们 来 看 一 下 这 是 如 何 实现 的 。 
首先 定义 gstep 和 一 个 增加 gstep 的 操作 ， 名 为 nc_gstep， 代 码 如 下 : 


# 学 习 率 衰减 
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gstep = tf.Variable(0,trainable=False,name='global _ step') 
# 运 行 此 操作 将 导致 gstep 的 值 增加 ， 从 而 降低 学 习 速率 


inc gstep = tf.assign(gstep, gstep+1) 


通过 这 个 定义 可 以 编写 一 些 简 单 的 逻辑 在 验证 损失 没有 减少 的 情况 下 调用 inc_gstep 操作 ， 代 
码 如 下 : 


# 学 习 率 衰减 相关 
# 如 果 验 证 数据 的 困惑 度 没有 持续 减少 ， 那 么 这 个 时 期 会 降低 学 习 率 
decay _ threshold = 5 
# 保持 计数 困惑 度 增加 
decay count = 0 
min perplexity = lel0 
# 学 习 率 衰减 逻辑 
def decay learning rate(session, Vv perplexity): 
global decay threshold, decay count, min perplexity 
# 衰 减 学 习 率 
if Vv perplexity < min perplexity: 
decay count = 0 
min perplexity= v_perplexity 
else: 


decay count += 1 


if decay count >= decay threshold: 
print('\t Reducing learning rate') 
decay count = 0 
session.run(inc gstep) 


每 当 我 们 遇 到 新 的 最 小 验证 困惑 度 时 ， 我 们 都 会 更 新 min_perplexity。 此 外 ，v_perplexity 是 当 
前 的 验证 困惑 度 。 


8.5.8 进行 预测 


现在 我 们 可 以 简单 地 通过 对 之 前 计算 的 logits 应 用 softmax 激活 来 进行 预测 。 我 们 还 定义 了 验 
证 logits 的 预测 操作 : 


train prediction = tf.nn.softmax(logits) 

# 确 保 在 继续 下 一 迭代 之 前 更 新 状态 变量 

with tf.control dependencies([saved valid output.assign(valid output), 
saved valid state.assign(valid state)]): 


Valid prediction = tf.nn.softmax (valid logits) 
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8.5.9 计算 困惑 度 〈 损 失 ) 


我 们 在 第 7 章 “ 长 短期 记忆 网 络 ” 中 定义 了 困惑 度 。 回 顾 一 下 ， 考 虑 到 当前 的 n-gram， 困 惑 
度 是 LSTM 看 到 下 一 个 n-gram 的 意外 (Surprised) 程度 。 因 此 , 较 高 的 困惑 度 意味 着 较 差 的 性 能 ， 
而 较 低 的 困惑 度 意味 着 较 好 的 性 能 : 


train perplexity without exp = tf.reduce suml(tf.concat (train labels,0)* 
-tf.log(tf.concat (train prediction,0)+le-10))/ (num unrollings*batch size) 

# 计算 验证 数据 困惑 度 

Valid perplexity without exp = tf.reduce sum(valid labels*-tf. 


log (valid prediction+le-10)) 


8.5.10” 重 置 状 态 


我 们 使 用 状态 重 置 ， 因 为 正在 处 理 多 个 文档 。 因此， 在 开始 处 理 新 文档 时 ， 我们 将 隐藏 状态 重 
置 为 零 。 但是， 在 实践 中 ， 重 置 状 态 是 否 有 帮助 还 不 是 很 清楚 。 一 方面 ， 当 开始 阅读 新 故事 时 ， 将 
每 个 文档 开头 的 LSTM 细胞 的 记忆 《或 者 说 内 存 ) 重 置 为 零 听 起 来 很 直观 ， 另 一 方面 ， 这 会 使 状 
态 变 量 偏向 零 。 我 们 鼓励 在 状态 重 置 和 状态 不 重 置 的 情况 下 运行 算法 ， 并 查看 哪 种 方法 表现 良好 。 

# 重 置 训练 状态 


reset train state = tf.group(tf.assign(saved state, tf.zeros([batch sizev 


num nodes])),tf.assign(saved output, tf.zeros([batch size, num nodes]))) 
# 重 置 验证 状态 


reset valid state = tf.group (tf.assign(saved _ valid _state，tf.zeros([1， 
num nodes])), tf.assign(saved valid output, tf.zeros([1l, num _ nodes]))) 


8.5.11 ” 贪 禁 采样 打破 重复 性 


这 是 一 种 非常 简单 的 技术 ， 我 们 可 以 随机 采样 LSTM 从 找到 的 n 个 最 佳 候选 项 中 抽取 下 一 个 
预测 。 


def sample (distribution) : 
best inds = np.argsort (distribution) [-3:] 
best probs =distribution[best inds]/np.sum(distribution[best inds]) 
best idx = np.random.choice (best inds,p=best probs) 


return best idx 


8.5.12 ”生成 新 文本 


我 们 将 定义 生成 新 文本 所 需 的 占 位 符 、 变 量 和 操作 。 这 些 定义 与 我 们 对 训练 数据 所 做 的 类 似 。 
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首先 ， 将 为 状态 和 输出 定义 输入 占 位 符 和 变量 。 接 下 来 ， 将 定义 状态 的 重 置 操作 。 最 后 ， 将 为 要 生 
成 的 新 文本 定义 LSTM 细胞 计算 和 预测 : 


# 文本 生成 : batch 1， 不 展开 


test input = tf.placeholder (tf.float32, shape=[1l, vocabulary size], name 


= 'test input') 


# 测试 阶段 的 相同 变量 

saved test output = tf.Variable(tf.zeros([l1l, num nodes]), trainable=False, 
name='test hidden') 

saved test state = tf.Variable (tf.zeros([1，num nodes]), 


trainable=False, name='test cell') 


# 计算 用 于 测试 数据 的 LSTM 细胞 输出 


test_output，test_state = lstm celll( test input, saved test output, 


saved test state) 


# 确保 在 继续 下 一 次 迭代 之 前 更 新 状态 变量 
with tf.control dependencies([saved test output.assign(test output), 
saved test state.assign(test state)]): 
test prediction = tf.nn.softmax (tf.nn.xw plus b(test output, w, b)) 
# 重 置 测试 状态 
reset test state = tf.group( 
saved test output.assign(tf.random normal([l,num nodes],stddev=0.05)), 
saved test state.assign(tf.random normal([l,num nodes],stddev=0.05))) 


8.5.13 ”示例 生成 的 文本 


让 我 们 看 一 下 第 26 步 学 习 后 LSTM 生成 的 一 些 数据 : 


the little said, am one of the glass, and the father had to this, there is at 
the dog 
would have should be stone with the money, hans that in his father the king was 


mine, then he did not know what a beautiful bird am UNK 


thereupon they said, klippines, 
my father he did not know when you have sold his wife, and 
said, the wedding was alone. then the money him a sunder them. 
so the shepherd 
was dead to his father, and that he had 
been he said, 
what, can you speak and said, he saw the window that he had to see him and comes, 


he fell into a son, and 
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went out and where that 

this all heads which he did better, he were was to standing by the handsome of 
the brother, said the wine of his strang the way to the faith, and said, you have 
promised her this, said, the little marlinchen by his father, i will not know how 
i will have you are, and they were to her father, i will now change man, and 

wept again, and the father, and the master loses. 


so the master the good brother was a couple in 


正如 你 所 看 到 的 ， 文 本 看 起 来 比 我 们 从 RNN 生成 的 要 好 得 多 。 事 实 上 ， 我 们 的 训练 语料库 里 
有 一 个 关于 农妇 和 奶牛 贩子 的 故事 。 但 是 ， 我 们 的 LSTM 不 只 是 输出 文本 ， 还 可 以 引入 新 的 东西 
比如 牧羊 人 shepherd) 、 婚 礼 (wedding) 和 葡萄 酒 〈wine)〉 为 这 个 故事 情节 增添 更 多 的 色彩 。 接 
下 来 ， 我 们 将 研究 从 标准 LSTM 生成 的 文本 与 其 他 模型 (如 带 窥视 孔 连 接 和 GRU 的 LSTM) 生成 
的 文本 的 比较 。 


8.6 标准 LSTM 与 带 有 窥视 孔 连 接 
和 GRU 的 LSTM 的 比较 


本 节 将 在 文本 生成 任务 中 把 LSTM 与 带 有 妾 视 孔 连接 和 GRU 的 LSTM 进行 比较 。 这 将 有 助 于 
我 们 比较 不 同 模型 在 困惑 度 和 生成 文本 质量 方面 的 表现 。 实 现代 码 见 ch8 文件 夹 中 的 代码 文件 


8_lstm_extensions.ipynb。 


8.6.1 标准 LSTM 


首先 重申 标准 LSTM 的 组 件 。 我 们 不 会 重复 标准 LSTM 的 代码 , 因为 它 与 之 前 讨论 过 的 相同 。 
最 后 将 看 到 LSTM 生成 的 一 些 文本 。 

在 这 里 ， 我 们 将 重新 审视 标准 LSTM 的 结构 。 正 如 前 面 提 到 的 ，LSTM 包括 以 下 内 容 : 

输入 门 : 这 决定 了 当前 输入 被 写 入 细胞 状态 的 程度 。 


遗忘 门 : 这 决定 了 前 一 个 细胞 状态 写 入 当前 细胞 状态 的 程度 。 
输出 门 : 这 决定 了 从 细胞 状态 向 外 部 隐藏 状态 输出 的 信息 量 。 


下 面 将 说 明 如 何 将 这 些 门 、 输 入 、 细 胞 状态 和 外 部 隐藏 状态 中 的 每 一 个 连接 起 来 ， 如 图 8-3 所 
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8-3 单 体 LSTM 细胞 结构 的 示例 图 


下 面 展示 标准 LSTM 在 对 我 们 的 数据 集 进行 第 1 步 训练 和 进行 26 步 训练 后 生成 的 文本 。 
第 1 步 学 习 后 生成 的 文本 : 


den there here, the took his she was and will, and was are then the bad the baved 
the bailled then said the to he was nother had he baill the baillet not ther, and 
the to had to had to and said to then he had said to he had to the but, and to his 
that the baill to had so that his baid the bailled not the baad the was to her that 
to the to had the was and said the to his so he will to and the will her one there 
to the wher the was was not the to the wast her the baad, but the was was the to 
to the to had that the took, and the baad, and to to the hat to a said to the will 
to had said, and was he ward, and the bailled ther, and the to his he bad ther, 
and the to the wook the bave, and the took, and the was was to he was was the to 
the will that his his said to the baid the to the when that, and the to he bad the 
to the beather he was to he bad to he want, but the was was not not the baad and 
then him not the was not to the but his sook that he hat to and the was as the was 
not not not the 


第 26 步 学 习 后 生成 的 文本 : 


as and with the king that they were there to be two-eyes and was 

to two-eyes, and so that is so that and that they said, "you strange to be still 
again. she was two-eyes, and where is some to her that, and the two 

brothers, when he was to drink, but the two brought that they said, “you will 


became to be still standing and the tree for they came and she had gone and the 
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king they were to the golden road, and thereupon they were two two-eyes," and they 
was apples the tree to her took at the tree, who was to dear the three beautiful 
bear struck the two the water to seek her to them, and two-eyes, "got to she was 
standing to strong was to door, and said, "they two belongs, and said， 

"wite and was the goat, the two godfather took them that they 

went to your son, and the two 

false her some, and the two 

false hearts with you, but the two brothers were two-eyes, and two-eyes, "the 
king, and said to him to him that the king with the tree for they can belong, that 


is the golden and said, the 


我 们 可 以 看 到 ， 在 第 26 步 学 习 后 与 第 1 步 学 习 后 相 比 ， 文 本 质量 有 了 相当 大 的 提高 。 此 外 ， 
本 文 看 起 来 比 我 们 在 第 6 章 中 使 用 循环 神经 网 络 的 示例 中 看 到 的 要 好 得 多 , 当时 用 100 个 故事 来 训 


8.6.2“ 门 控 循环 单元 


本 节 首 先 简要 描述 GRU 的 组 成 , 然后 是 实现 GRU 细胞 的 代码 ， 最 后 看 一 下 GRU 细胞 生成 的 
一 些 文本 。 


1. 回顾 


下 面 复 习 一 下 GRU。GRU 是 LSTM 操作 的 优雅 简化 形式 。GRU 对 LSTM 引入 了 两 种 不 同 的 
修改 ， 如 图 8-4 所 示 。 它 将 内 部 细胞 状态 和 外 部 隐藏 状态 连接 成 单个 状态 。 然 后 将 输入 门 和 遗忘 门 
合并 成 一 个 更 新 门 。 


D 
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图 8-4 单个 GRU 细胞 结构 的 示例 图 
2. 相关 代码 
这 里 我 们 将 定义 一 个 GRU 细胞 : 
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def gru cell(i, o): 
""" 创 建 一 个 GRU 细胞 . 


reset gate = tf.sigmoid(tf.matmul (i, rx) + tf.matmul(o, rh)+ rb) 


h tilde = tf.tanh (tf.matmul (i,hx) + tf.matmul (reset gate * o, hh) + hb) 
z= tf.sigmoid(tf.matmul (i,zx) + tf.matmul(o, zh) + zb) 
hh= (l=z)*o + zh tilde 


return h 


然后 像 之 前 在 示例 中 所 做 的 那样 调用 此 方法 : 


for i in train inputs: 
output = gru cell (i, output) 
output = tf.nn.dropout (output, keep_prob=1.0-dropout) 
outputs .append (output) 


3. 示例 生成 的 文本 


下 面 展示 GRU 在 对 数据 集 进行 第 1 步 训 练 和 进行 26 步 训练 后 生成 的 文本 。 
第 1 步 学 习 后 产生 的 文本 : 


ce that the said the said of and sher the said the aged king, when that hat have 
she head was ing-maid, which the bride, and such it, and the said thave heart with 
a was ing, how the said was of how said was ing-maid thad ther, and have him the 
there he said the shere, but the said, and which a deacest the which a ded mame 
her that ing the king's saided to her the wase was ing, the saider, to the 

dereess was ing-mall him and and wast he heart whe she went ther the was to the 
deserved her, she had had that the such it went in and and wast her the way to to 
the said, and the which the bride was into then her saw he had that the breart to 
here, and the king-maid, and broid, but to then the said, and the said to the saigd, 
the whene hered when the such a deace was to her, and have shere then she king, 
and the whice he had to her here the went the said, and when the such ther the was 
that that she was the such a deach was to him and then he heart the heaced when 


the such a king-meart and the w 


第 26 步 学 习 后 产生 的 文本 : 


over the road to the forest and was to take You down again。 


then they had so much, and said, the king's daughter to his room, and she had 
been into the room what had to the horse. the head at the king, the hearth, and 
they had given him, and that it was that her heart, and they had give him that they 
were some him to his son, and the king, that i have brought the 

king's son, and the maiden, and the king said, "the king's daughter to the forest, 
which had so much again, and they had been the heart, whereupon it in the paddock, 
and the prince was so that the king said, then they made himself, and that it was the 


master's daughter was in this the master loses away again. the king's head of 
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this, and she saw the father into him, and when he was to say, and the king said 
the maiden and said, "i have not his head and the king's house, and the man said 
the kingdom, and the old king's son to be over the door white, and that the king 


said, "if the king's head off her, and said, i have been cha 


我 们 可 以 看 到 ， 就 文本 质量 而 言 ， 与 标准 LSTM 相 比 ，GRU 没有 显示 出 显著 的 质量 改进 。 然 
而 ，GRU 的 输出 在 文本 中 似乎 比 LSTM 更 频繁 地 重复 使 用 单词 〈 例 如 单词 King) 。 这 可 能 是 由 于 
模型 的 简化 与 标准 LSTM 中 的 两 个 状态 相 比 ， 仅 具有 单个 状态 ) 导致 长 期 记忆 受到 损害 。 


8.6.3 ” 带 宕 视 孔 连接 的 LSTM 


下 面 讨论 带 窥视 孔 连接 的 LSTM 以 及 它们 与 标准 LSTM 的 不 同 之 处 。 接 下 来 将 讨论 它们 的 实 
现 ， 然 后 使 用 带 窥视 孔 连接 的 LSTM 模型 生成 文本 。 


1. 回顾 


下 面 简单 看 一 下 带 有 罕 视 孔 连接 的 LSTM。 罕 视 孔 本 质 上 是 一 种 门 (输入 门 、 遗 忘 门 和 输出 门 ) 
直接 查看 细胞 状态 的 方式 ， 而 不 是 等 待 外 部 隐藏 状态 〈 见 图 8-5) 。 


图 8-5 一 个 带 寞 视 孔 连接 的 LSTM 细胞 示例 图 


2. 相关 代码 


这 里 需要 注意 的 是 ， 保 持 对 角 线 的 窥视 孔 连接 。 我 们 发 现 ， 对 于 这 种 语言 建 模 任务 ， 非 对 角 窥 
视 孔 连接 (由 Gers 和 Schmidhuber 在 他 们 的 论文 《Recurrent Nets that Time and Count, Neural 
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Nenworks》 中 提出 ) 对 性 能 的 不 利 影响 大 于 它们 提供 的 帮助 。 因 此 ， 我 们 采用 了 一 种 不 同 的 变 体 ， 
使 用 对 角 线 帘 视 孔 连接 ， 如 Sak、Senior 和 Beaufays 在 他 们 的 论文 《Long Short-Term Memory 
Recurrent Neural Network Architectures for Large Scale Acoustic Modeling》 中 所 使 用 的 。 

以 下 是 代码 实现 : 


def lstm with peephole cell(i, o, state): 
input gate = tf.sigmoid(tf.matmul (i, ix) + state*ic +tf.matmul (0o, im)+ib) 
forget gate=tf.sigmoid(tf.matmul (i, fx) + state*fc +tf.matmul (0o, fm)+fb) 
update = tf.matmul (i, cx) + tf.matmull(o, cm) + cb 
state = forget gate * state + input gate * tf.tanh (update) 
output_gate =tf.sigmoid (tf.matmul (i, ox) + state*oc +tf.matmul (0o, om) +ob) 
return output gate * tf.tanh(state), state 


然后 将 为 每 个 batch 输入 调用 此 方法 ， 以 贯穿 所 有 时 间 步 骤 Cnum_unrollings 时 间 步 又 ) ， 如 
下 面 的 代码 所 示 : 


for i in train inputs: 
output， state = lstm with peephole_cel1(i，output，state) 
output = tf.nn.dropout (output, keep_prob=1.0-dropout) 
outputs .append (output) 


3. 示例 生成 的 文本 


下 面 展示 带 窥视 孔 连接 的 LSTM 模型 在 对 数据 集 进行 第 1 步 训练 和 进行 26 步 训练 后 生成 的 文 
本 。 
第 1 步 学 习 后 产生 的 文本 : 


apotut whe wher he whe ther to was the wit was so that wit was she was ther that 
to the the to was was whe the che was the with he cou whe cas to the the that and the 
wou to the ther ther to was so to ther he cas the cas ther the that to the the he che 
whe the cou wer was ther he cout the the that and the was that the her he win the whe 
was whe was the whe cout the to wit to the the that ther the ther whe cou the cou the 
whe cou wer the whe whe cas to to whe cout he wou was ther that the cou ther he cou 
the was the cou was the whe cou was wit to the the the the the that whe whe was was 
the was she che whe whe cas was was was the wou whe wout the to shat the to so the 
to the che cou ther he cas to the he cthe he whe che the was she cou ther the to to 
ther ther to sher he was she whe whe whe cout he was so the the he cthe that and as 
ther the che was so the the her ther the whe the whe che cas the was she wou the wou 


whe the che whe che thas the he win to he cout to was the cou ther he whe 


第 26 步 学 习 后 产生 的 文本 : 


he was the king, and when they shall because took and said, and then the the 
the the maiden his back the king, and when the whole and said, then the the kinger, 
and when she was they the the that his been to the said to the whome, then so the 
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there, and when he said the the king's said, the said, "that they the that to the 
king's said the greaved the grand the king's was she her, the the king, and 

the the that had to the king's had that the that they were the said, "i came, 
and the gread them. the whole to the the that in the greed to they the king's said 
the the the that that the king and that to the king's was to the kill, that they 
the king to the the took her. when the that that 

the that he was 

not the great the great of her they had not the king's was and when she wanted 
to his bring to they had took the was and with you shall of the said them, when 
she said, "then her, the the that her, and the the kind to his bring to said, as 
the that they the great the that the beather, the 


与 标准 LSTM 或 GRU 生成 的 文本 相 比 , 带 有 窥视 孔 连接 的 LSTM 产生 的 文本 似乎 在 语法 上 表 
现 较 差 。 接 下 来 让 我 们 看 看 每 种 模型 在 困惑 度 方面 进行 定量 比较 的 情况 。 


8.6.4” 随 着 时 间 的 推移 训练 和 验证 困惑 度 


在 图 8-6 中 ,我 们 将 绘制 LSTM、 具 有 窥视 孔 连接 的 LSTM 和 GRU 随时 间 的 困惑 度 表现 情况 。 
首先 , 我 们 可 以 看 到 , 不 使 用 Dropout 时 可 以 明显 减少 训练 困惑 度 。 但是, 我 们 不 应 该 得 出 Dropout 
会 对 性 能 产生 负面 影响 的 结论 ， 因 为 这 种 吸引 人 的 表现 是 由 于 过 度 拟 合 的 训练 数据 造成 的 。 从 图 
8-6 中 可 以 看 出 这 一 点 。 这 向 我 们 展示 了 Dropout 事实 上 有 助 于 我 们 完成 语言 生成 任务 。 


LSTM 各 类 变 体 的 训练 数据 的 困惑 度 表现 情况 


—e— LSTW + Dropout 

-~- LSTW 

一 一 LSTWM (Peephole) + Dropout 
—w G6RU + Dropout 


LSTM 各 类 变 体 的 验证 数据 困惑 度 的 表现 情况 


一 LSTM + Dropout 

-~*~ LS™ 

一 一 LSTWM (Peephole) + Dropout 
一 GRU + Dropout 


中 站 
时 间 步 (Time Step) 


图 8-6 截至 目前 ， 随 着 时 间 的 推移 ，LSTM 各 类 变 体 的 训练 数据 和 验证 数据 的 困惑 度 的 变化 情况 
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此 外 ， 从 使 用 Dropout 的 所 有 方法 中 ， 我 们 可 以 看 到 LSTM 和 GRU 提供 了 很 好 的 性 能 。 一 个 令 
人 惊讶 的 观察 结果 是 ， 具 有 窥视 孔 连 接 的 LSTM 产生 最 差 的 训练 困惑 和 稍微 差 的 验证 困惑 度 。 这 意味 
着 帘 视 孔 连 接 不 会 为 解决 我 们 的 问题 而 增加 任何 价值 ， 而 是 通过 向 模型 引入 更 多 参数 来 使 优化 变 得 困 
难 。 具 体 表现 情况 如 图 8-6 所 示 。 读 者 也 可 以 在 代码 文件 plot_perplexity_over-time.ipynb 中 自行 查看 。 


目前 的 文献 表明 , LSTM 和 GRU 之 间 没 有 明显 的 赢家 ,而 是 在 很 大 程度 上 取决 于 有 具体 的 


工作 任务 (参见 《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence 
JMModeling》，Chung 等 ，NIPS 2014 深度 学 习 研 讨 会 ，2014 年 12 月 )。 


8.7 ”优化 LSTM 一 一 集束 搜索 


正如 我 们 前 面 看 到 的 ， 生 成 的 文本 可 以 被 改进 。 现 在 ， 让 我 们 看 看 在 第 7 章 “ 长 短期 记忆 ”中 
讨论 的 集束 搜索 是 否 有 助 于 提高 性 能 。 在 集束 搜索 中 ,我 们 将 向 前 看 若干 步骤 ( 称 为 集束 ) ， 并 获 
得 每 个 集束 具有 最 高 联合 概率 的 集束 〈 双 边 型 序列 ) 。 联 合 概率 是 通过 在 集束 中 乘 以 每 个 预测 的 二 
元 模型 的 预测 概率 来 计算 的 。 注 意 ， 这 是 一 个 仿 林 搜索， 意味 着 随 着 树 的 增长 ， 我 们 将 迭代 地 计算 
树 的 每 个 深度 的 最 佳 候 选项 。 应 该 注意 的 是 ， 这 种 搜索 不 会 导致 全 局 最 优 集束 。 


8.7.1 实现 集束 搜索 


为 了 实现 集束 搜索 , 我 们 只 需要 改变 文本 生成 技术 ,训练 和 验证 操作 保持 不 变 , 但 是 代码 将 比 
我 们 之 前 看 到 的 文本 生成 操作 流程 更 复杂 。 相 关 代 码 见 ch8 文件 夹 中 的 代码 文件 
8_lstms_for_text_generation.ipynb 中 的 集束 搜索 部 分 。 

首先 ， 定 义 集束 长 度 (我们 未 来 看 到 的 步骤 数 ) 和 beam_neighbors (我 们 在 每 个 时 间 步 长 上 比 
较 的 候选 项 数量 ) : 

beam length = 5 

beam neighbors = 5 


我 们 将 定义 beam_neighbors 的 占 位 符 数 ， 以 便 在 每 个 时 间 步 长 保持 最 佳 候选 项 : 


sample beam inputs = [tf.placeholder (tf.float32, shape=[1, vocabulary size]) 


for _ in range (beam neighbors)] 


接 下 来 , 定义 两 个 占 位 符 来 保存 发 现 的 最 佳 全 局 集束 索引 和 本 地 维护 的 最 佳 候 选集 束 索 引 , 我 
们 将 用 它们 进行 下 一 预测 阶段 的 预测 : 


best beam index = tf.placeholder (shape=None, dtype=tf.int32) 
best neighbor beam indices = tf.placeholder (shape=[beam neighbors], 


dtype=tf.int32) 


第 8 章 利用 LSTM 自动 生成 文本 | 237 


然后 为 每 个 集束 候选 项 定义 状态 和 输出 变量 ， 就 像 我 们 之 前 为 单个 预测 所 做 的 那样 ; 
saved sample beam output = [tf.Variable(tf.zeros([1，num nodes])) for _ in 
[tf.Variable (tf.zeros([1l, num nodes])) for in 


range (beam neighbors)] 
saved sample beam state = 


range (beam neighbors)] 
我 们 还 将 定义 状态 重 置 操 作 : 


reset sample beam state tf.group(*[saved sample beam output[vil]. 
assign(tf.zeros([l,num nodes])) for vi in range (beam neighbors)], 


*[saved sample beam state[vil] .assign(tf.zeros([1l, num nodes])) for 


Vi in range (beam neighbors)]) 
此 外 ， 需 要 对 每 个 集束 的 单元 输出 和 预测 进行 计算 : 
# 我 们 计算 每 个 集束 的 1stm_cel1l 状态 和 输出 
sample beam outputs, sample beam states = [],[] 
for vi in range (beam neighbors): 
tmp_output, tmp_state = lstm celll( sample beam inputs[vil], 
saved_ sample beam output[vi], saved sample beam state[vi] ) 
sample beam outputs.append (tmp_output) 
sample beam states.append (tmp_ state) 
# 对 于 给 定 的 一 组 集束 ， 输 出 大 小 为 beam_neighbors 的 预测 向 量 列表 ， 每 个 集束 具有 完整 词汇 表 的 预测 
| 


sample beam predictions 
for vi in range (beam neighbors): 
with tf.control dependencies([saved sample beam output[vil]. 


assign (sample beam outputs[vi]), saved sample beam state[vil]. 
assign (sample beam states[vi])]): 
sample beam predictions.append(tf.nn.softmax (tf.nn.xw_ plus b 


(sample beam outputs[vi], w, b))) 

接 下 来 ,定义 一 组 新 的 操作 ,用 于 更 新 每 个 集束 的 状态 和 输出 变量 ， 并 在 每 个 步 又 中 找到 最 佳 
集束 候选 索引 。 这 对 于 每 个 步骤 都 很 重要 , 因为 最 佳 集束 候选 项 将 不 会 在 给 定 深度 处 从 每 棵 树 均 匀 
地 分 支出 来 。 图 8-7 显示 了 一 个 示例 。 我 们 将 使 用 粗 体 字 和 箭头 指示 最 佳 集束 候选 项 。 


the kng was hunting In the forest 


was huntng mn the forest 


orest 


th ng 
kng was hhung in the 


‘the king was huntng mn the forex 


king was hunting in the forest 
图 8-7 集束 搜索 说 明了 每 步 更 新 集束 状态 的 要 求 
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正如 这 里 所 看 到 的 ,候选 项 不 是 被 均匀 采样 的 , 在 给 定 深度 处 总 是 有 一 个 来 自 子 树 (一 组 从 同 
一 点 开始 的 箭头 ) 的 候选 项 。 例如， 在 深度 2 处 ,没有 从 hunting 一 king 路 径 生成 的 候选 项 ， 因 此 
我 们 为 该 路 径 计 算 的 状态 更 新 不 再 有 用 。 所 以 我 们 为 该 路 径 维护 的 状态 必须 蔡 换 为 king 一 was 路 
径 的 状态 更 新 , 因为 现在 有 两 条 路 径 共享 父 节点 king 一 was。 使 用 以 下 代码 对 状态 进行 此 类 蔡 换 : 


stacked beam outputs = tf.stack(saved sample beam output) 


stacked beam states = tf.stack(saved sample beam state) 


update sample beam state = tf.group( 
*[saved sample beam output[vi] .assign(tf.gather nd(stacked beam outputs, 
[best_ neighbor beam indices[vi]])) for vi in range (beam neighbors)], 
*[saved sample beam state[vi].assign(tf.gather ndl(stacked beam states, 
[best neighbor beam indices[vi]])) for vi in range (beam neighbors)]) 


8.7.2 ”使 用 集束 搜索 生成 文本 的 示例 


让 我 们 看 看 LSTM 是 如 何 通过 集束 搜索 执行 的 ， 它 看 起 来 比 以 前 更 好 : 


ugh, and said. then two paddock 

would certainly have 

brought it again. but the ground, but when the father said. the paressed the 
master, heard that i cannot. when the father said 

that it one of the second 

tired, and threatening she was away. the king's son paddock coming out, he said, 
i have not. have you 

not seen little red-stockings. the paddock says, 

no, i has not seen it. the king's son paddock crown where off his hand. the 
king's son paddock crown where he had before the paddock came, and the paddock cries, 
huhu. 

then thereupon he could not recognize her to that the paddock cries, huhu, huhu, 
huhu. but the golden came for the child, and when she spread out his little 

sister, had becomes out, and he came ball, and the 

paddock says, 

no, no, i have take you do. when he cried, the paddocked at last. the paressed 
the master wanted again. 

then the 

paddock comes out, thereupon the child inquires rosy cheeks, and the paddock 
cries, huhu. 


then thereupon he could not received 


与 LSTM 产生 的 文本 相 比 ， 该 文本 在 保持 文本 语法 一 致 性 的 同时 ， 似 乎 具有 更 多 的 变化 。 因 
此 ， 集 束 搜索 有 助 于 产生 质量 更 好 的 预测 ， 而 不 是 一 次 预测 一 个 词 。 此 外 ， 我 们 看 到 LSTM 结合 
故事 中 的 不 同 元 素 提 出 了 有 趣 的 概念 。 但 是 ， 在 一 些 情况 下 ， 单 词组 合并 没有 多 大 意义 。 下 面 来 看 
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如 何 进一步 改进 我 们 的 LSTM。 
8.8 改进 LSTM 一 一 使 用 词 而 不 是 n-gram 生成 文本 


在 这 里 ， 我 们 将 讨论 改进 LSTM 的 一 些 方法 。 首 先 ， 我 们 将 讨论 如 果 使 用 One-Hot 编码 词 特 
征 ， 模 型 参数 的 数量 是 如 何 增长 的 。 这 促使 我 们 使 用 低 维 词 向 量 而 不 是 One-Hot 编码 向 量 。 然 后 ， 
我 们 将 讨论 与 使 用 bigrams 相 比 ， 如 何在 代码 中 使 用 词 向 量 来 生成 质量 更 高 的 文本 。 此 部 分 的 代码 
位 于 ch8 文件 夹 中 的 8_lstm_ word2vec.ipynb 文件 中 。 


8.8.1 维度 问题 


阻止 我 们 使 用 词 而 不 是 n-gram 作为 LSTM 输入 的 一 个 主要 限制 是 ， 这 将 极 大 地 增加 模型 中 的 
参数 数量 。 让 我 们 通过 一 个 例子 来 理解 这 一 点 。 考虑 到 我 们 有 一 个 大 小 为 500 的 输入 和 一 个 大 小 为 
100 的 细胞 状态 。 这 将 导致 总 共 大 约 有 240000 个 参数 不 包括 softmax 层 ) ， 如 下 所 示 : 


4X(500X100+100X100+100) 一 240000 
现在 我 们 将 输入 的 大 小 增加 到 1000， 参 数 的 总 数 大 约 是 440000， 参 数 个 数 如 下 : 
~ 4X(1000X100+100X100+100) ~ 440 000 


正如 上 面 看 到 的 ， 对 于 输入 维度 增加 500 个 单位 ， 参 数 数量 增加 了 近 200 000。 这 不 仅 增加 了 
计算 复杂 度 ， 而 且 由 于 大 量 参数 的 存在 增加 了 过 度 拟 合 的 风险 。 因 此 , 我 们 需要 对 输入 的 维度 进行 
限制 。 


8.8.2 完善 Word2vec 


与 One-Hot 编码 相 比 ，Word2vec 不 仅 可 以 给 出 词 的 低 维特 征 表示 ， 而 且 可 以 给 出 语义 上 合理 
的 特征 。 为 了 理解 这 一 点 ， 我 们 考虑 三 个 词 : cat、dog 和 volcano。 如 果 只 对 这 些 词 进行 One-Hot 
编码 ， 并 计算 它们 之 问 的 欧 几 里 得 距离 ， 将 如 下 : 


distance(cat,volcano) = distance(cat,dog) 


如 果 使 用 词 嵌入 方法 ， 将 得 到 如 下 表示 : 


distance(cat,volcano) >aistance(catvdog) 


我 们 希望 这 些 特征 能 够 代表 后 者 , 因为 相似 的 两 个 词 比 不 相似 的 两 个 词 具 有 更 小 的 距离 因此， 
该 模型 能 够 生成 质量 更 好 的 文本 。 
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8.8.3 使 用 Word2vec 生成 文本 


8-8 描述 了 LSTM-Word2vec 的 整体 结构 ， 相 关 代码 见 ch8 文件 夹 


这 里 的 LSTM 比 标准 LSTM 复杂 得 多 ， 因 为 我 们 在 输入 和 LSTM 的 中 间 插 入 了 一 个 词 嵌入 层 。 图 


输出 单词 (W',, ) 


输入 单词 (W，) 


8-8 一 种 基于 词 向 量 的 LSTM 语言 建 模 结 构 


的 8_lstm_word2vec.ipynb 文件 。 


我 们 将 首先 使 用 连续 词 袋 (CBOW ) 模型 学 习 词 向 量 。 以 下 是 Word2vec 模型 学 到 的 一 些 最 佳 
关系 : 


与 will 最 接近 的 单词 : shall, can, must, may, 

与 of 最 接近 的 单词 : against, knocked, tongue, pulled, 
与 have 最 接近 的 单词 : marry, had, receive, give, 

与 i 最 接近 的 单词 : 'i， yourself, we, i., 


现在 可 以 将 词 向 量 而 不 是 One-Hot 编码 的 向 量 提供 给 LSTM 。 为 此 ， 我 们 合 


萎 nn.embedding lookup 函数 ， 代 码 如 下 : 


并 


FF 


for ui in range (num unrollings): 


train inputs.append (tf.placeholder (tf.int32, shape=[batch size], 


name="'train inputs %d'%ui)) 
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train inputs_embeds .append (tf.nn-embedding lookup (embeddings, 


train inputs[ui])) 


对 于 更 加 通用 的 语言 建 模 任务 ， 我 们 可 以 使 用 现 有 的 预 训练 词 向 量 。 通 过 从 具有 数 十 亿 
个 单词 的 文本 语料库 中 学 习 而 找到 一 些 词 向 量 ， 这 些 词 向 量 可 以 免费 下 载 和 使 用 。 在 这 
里 ， 我 们 将 列 出 几 个 可 用 的 词 向 量 的 存储 库 : 

® Word2vec: https://code.google.com/archive/p/word2vec/ 

e。 Pretrained GloVe word vectors: https://nlp.stanford.edu/projects/glove/ 


。 fastText word vectors: https://github.com/facebookresearch/fastText/blob/master/pretrained- 


vectors.md 
但 是 ， 由 于 我 们 正在 使 用 非常 有 限 的 词汇 量 ， 因 此 将 学 习 自 己 的 词 向 量 。 如 果 我 们 尝试 
将 大 量 的 词 向 量 存储 库 用 于 几 千 个 单词 的 词汇 表 ， 那 将 是 一 大 笔 计算 开销 。 此 外 ， 由 于 
我 们 通过 文本 生成 来 生成 “故事 ”， 因 此 在 学 习 的 过 程 中 甚至 可 能 根本 不 会 使 用 某 些 独特 
的 单词 (例如 elves 和 water-nixie )。 


其 余 代码 类 似 于 我 们 之 前 讨论 的 LSTM 细胞 计算 、 损 失 、 优 化 和 预测 。 但 是 ， 这 里 的 输入 大 
小 不 再 是 词汇 量 大 小 ， 而 是 词 向 量 大 小 。 


8.8.4 使 用 LSTM-Word2vec 和 集束 搜索 生成 文本 的 示例 
以 下 文本 由 LSTM-Word2vec 生成 (在 删除 元 余 空间 的 简单 预 处 理 步 又 之 后 ) ， 现 在 这 些 文字 
看 起 来 比较 靠 谱 了 : 


the devil has told her that the king who had told her how his brothers had been 
UNK , and had put the UNK in her arms . when she came to the king , and the king 


said ，`” my dear wife , you shall be mine , i am UNK . the king said , i will not 
find it . '' the king said , ““* i feel so UNK that the king 's son , and i will 
UNK herself . '' then the king said , “~ i feel as if it was UNK , as much as a 
reward . but the king said , i will not find it . '' the king said, “`. i feel so 
UNK that the king 's daughter . the king said to her , ` ” my dear wife , you shall 
be mine , and i am UNK . the king said , i have not . '' and the king said , ~ 


i feel as if it was so beautiful that they had ever UNK . when the king saw that 

the king said , “~ i feel as if it was UNK for it . '' the king said , “* i feel 

as if it was UNK . then the king said , i will not find it . '' the king said ， 
~ i feel so UNK , and 


可 以 看 到 这 里 没有 重复 的 文本 ， 就 像 我 们 在 标准 RNN 中 看 到 的 那样 ， 在 大 多 数 情况 下 这 些 文 
本 看 起 来 语法 正确 并 且 拼写 错误 很 少 。 

至 此 ， 我 们 已 经 分 析 了 标准 LSTM、 带 有 帘 视 孔 连 接 的 LSTM、GRU、 带 有 集束 搜索 的 LSTM 
以 及 使 用 Word2vec 进行 集束 搜索 的 LSTM 来 生成 文本 的 情况 。 现 在 我 们 再 来 看 看 这 些 模 型 之 间 的 
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定量 比较 情况 。 


8.8.5 ”困惑 度 随 着 时 间 推 移 的 变化 情况 


在 图 8-9 中 将 绘制 出 我 们 已 经 学 习 过 的 的 LSTM、 带 有 窥视 孔 连接 的 LSTM、GRU 和 使 用 
Word2vec 特性 的 LSTM 等 模型 的 困惑 度 在 时 间 上 的 变化 情况 。 为 了 更 加 有 意义 , 我 们 还 将 比较 其 
他 模型 : 使 用 词 向 量 和 Dropout 的 三 层 深度 的 LSTM。 我们 可 以 从 使 用 Dropout 的 方法 (减少 过 度 
拟 合 的 方法 ) 中 看 到 , 具有 Word2vec 特征 的 LSTM 显示 出 良好 的 结果 。 这 里 并 未 声明 具有 Word2vec 
的 LSTM， 仅 基于 具体 数值 表现 出 良好 的 性 能 ， 其 实 还 应 考虑 现实 问题 的 难度 。 在 Word2vec 设置 
中 ， 我 们 用 于 学 习 的 最 小 单位 是 单词 ， 与 使 用 bigram 的 其 他 模型 不 同 。 由 于 词汇 量 大 ， 与 bigram 
级 别 相 比 ， 单 词 级 别 生成 的 语言 更 具有 挑战 性 。 在 单词 级 别 上 与 基于 bigram 的 模型 实现 同样 的 训 
练 ， 在 困惑 度 方面 ， 单 词 级 别 的 表现 被 认为 更 佳 。 我 们 看 一 下 验证 的 困惑 度 ， 可 以 发 现 基于 词 向 量 
的 方法 表现 出 更 高 的 验证 困惑 度 。 这 是 可 以 理解 的 ， 因 为 词汇 量 大 ， 所 以 任务 更 具 挑 战 性 。 另 一 个 
有 意义 的 观察 是 比较 单 层 LSTM 和 深度 LSTM。 可 以 看 到 深度 LSTM 随 着 时 间 的 推移 显示 出 更 低 且 稳 
定 的 验证 困惑 度 ， 这 使 我 们 相信 深度 模型 通常 会 提供 更 好 的 效果 。 这 里 需要 注意 的 是 ， 我 们 没有 给 出 
使 用 集束 搜索 的 结果 ， 是 因为 集束 搜索 仅 影响 预测 ， 而 对 训练 困惑 度 没有 影响 。 


LSTW 各 类 变 体 的 训练 数据 的 困 恶 度 表 现 情况 


一 LT + Dropout 

—— LSTN (Poephole) + Dropout 

~ RU + Drepout 

一 LSTN + Word2vec + Dropout 
一 一 Deep LSTW + Word2vec + Dropout 


esf 


LsTu 和 类 变 休 的 证 数 和 的 加 诺 表现 情况 
图 8-9 截至 目前 ， 随 着 时 间 的 推移 ，LSTM 各 类 变 体 的 训练 数据 和 验证 数据 的 困惑 度 的 变化 情况 


。 


和 


8.9 使 用 TensorFlow RNN API 


本 节 研 究 如 何 使 用 TensorFlow RNN API 使 代码 更 简单 .TensorFlow RNN API 包含 各 种 与 RNN 
相关 的 函数 ， 这 有 助 于 我 们 更 快 、 更 轻松 地 实现 RNN。 下 面 使 用 TensorFlow RNN API 实现 我 们 在 
前 面 讨论 的 相同 示例 。 然 而 ， 为 了 更 加 精彩 ， 我 们 将 实现 一 个 深层 LSTM 网 络 ， 其 中 有 三 层 我 们 
在 比较 中 讨论 过 。 完 整 代码 见 Ch8 文件 夹 下 的 8_ 1stm_word2vec_mn _apiipynb 文件 。 

首先 , 我 们 将 定义 占 位 符 ， 用 于 保存 输入 、 标 签 和 相应 的 词 向 量 。 我 们 忽略 了 与 验证 数据 相关 
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的 计算 ， 如 下 : 
# 训练 输入 数据 
train inputs, train labels = [],[] 
train labels ohe = [] 


# 定 义 展开 的 训练 输入 
for ui in range (num_ unrollings) : 
train inputs.append (tf.placeholder (tf.int32, 
shape=[batch size],name='train inputs %d'%ui)) 
train labels.append (tf.placeholder (tf.int32, shape=[batch size], 
name = 'train labels %d'%ui)) 
train labels ohe.append(tf.one hot(train labels[ui]， 
vocabulary_size)) 
# 为 所 有 展开 的 内 容 定义 词 向 量 查询 操作 
# 训练 输入 
train inputs embeds = [] 
for ui in range (num unrollings): 


# 我 们 使 用 expand_dims 添加 一 个 额外 的 数 轴 ， 因 为 后 面 的 LSTM 细胞 计算 需要 用 到 


train_inputs_embeds .append (tf.expand dims ( tf.nn.embedding lookup 
(embeddings,train inputs[ui]),0)) 


此 后 ， 我 们 将 从 RNN API 的 LSTM 细胞 中 定义 LSTM 细胞 的 列表 : 
# 这 里 num_nodes 是 一 系列 隐藏 层 的 大 小 


cells = [tf.nn.rnn cell.LSTMCell (n) for n in num nodes] 


我 们 还 将 为 所 有 LSTM 细胞 定义 DropoutWrapper， 它 对 LSTM 细胞 的 输入 、 状 态 、 输 出 执行 
Dropout 操作 : 


# 现在 为 每 一 个 LSTM 细胞 定义 一 个 DropoutWrapper 


dropout cells = [ 


rnn.DropoutWrapper (cell=lstm, input keep prob=1.0, 
output keep prob=1.0-dropout, state keep prob=1.0, 
variational recurrent=True, 
input size=tf.TensorShape([embeddings size]), 
dtype=tf.float32 ) for lstm in cells 
] 


提供 给 该 功能 的 参数 如 下 : 


@@ cell: 在 计算 中 使 用 的 RNN 细胞 类 型 。 
@ ”input_keep_prob: 执行 Dropout 时 保持 激活 的 输入 单位 数量 ( 0~1 ) 。 
@ output keep prob: 执行 Dropout 时 要 保持 激活 的 输出 单位 数量 。 
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@ state keep prob: 执行 Dropout 时 要 保持 激活 的 细胞 状态 的 单位 数量 。 
@ variational recurrent: Gal 和 Ghahramani 在 《Theoretically Grounded Application of Dropout 
in Recurrent Neural Networks》 中 引入 的 RNN 的 Dropout 的 特殊 类 型 。 


然后 ， 我 们 将 定义 一 个 名 为 initial_state 的 张 量 ( 用 零 初始 化 )， 它 将 包含 LSTM 的 迭代 更 新 
状态 《隐藏 状态 和 细胞 状态 ) : 
# LSTM 记忆 的 初始 状态 


initial state = stacked dropout cell.zero state(batch size, 


dtype=tf.Float32) 


通过 定义 LSTM 细胞 列表 , 我们 现在 可 以 定义 一 个 封装 LSTM 细胞 列表 的 MultiRNNCell 对 象 ， 
代码 如 下 : 


# 首先 定义 一 个 使 用 DropoutWrapper 的 MultiRNNCell 对 象 〈 用 于 训练 
stacked dropout cell = tf.nn.rnn cell.MultiRNNCell (dropout cells) 
# 这 里 定义 一 个 不 使 用 Dropout 验证 和 测试 的 MultiRNNCel1 的 对 象 

stacked cell = tf.nn.rnn cell.MultiRNNCell (cells) 


接 下 来 ， 我 们 将 使 用 tfnn.dynamic_rnn 函数 计算 LSTM 细胞 的 输出 ， 代 码 如 下 : 
# 定义 LSTM 细胞 的 计算 (训练 


train outputs, initial state = tf.nn.dynamic rnn( 
stacked dropout cell, tf.concat (train inputs embeds,axis=0), 
time major=True, initial state=initial state) 


对 于 此 功能 ， 我 们 将 提供 几 个 参数 : 


@ cell: 用 于 计算 输出 的 序列 模型 的 类 型 。 在 例子 中 ， 这 是 之 前 定义 的 LSTM 细胞 。 

@ inputs: 这 些 是 LSTM 细胞 的 输入 。 输 入 需要 有 具有 [num unrollings ，batch_size， 
embeddings_size] 的 形状 。 因 此 ， 我 们 拥有 该 张 量 中 所 有 时 间 步 长 的 所 有 批 处 理 数据 。 我 
们 将 这 种 类 型 的 数据 称 为 time major， 因 为 时 间 轴 是 第 0 轴 。 

@ time major: 决定 了 输入 (输出 ) 张 量 的 前 两 个 定义 参数 表示 的 含义 。 

@ initial state: LSTM 需要 一 个 初始 状态 才能 开始 。 


通过 计算 LSTM 的 最 终 隐藏 状态 和 细胞 状态 ， 下 面 定义 logits 〈 从 每 个 词 的 softmax 层 获得 的 
非 标准 化 分 数 ) 和 预测 〈 每 个 词 的 softmax 层 的 标准 化 分 数 ) : 


# 将 最 终 输出 重 塑 为 [num unrollings*batch size, num nodes] 
final output = tf.reshape (train outputs, [-1,num nodes[-1]]) 
# 计算 logits 

logits = tf.matmul (final output, Ww) + b 


# 计算 预测 


train Prediction = tf.nn.softmax(logits) 
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然后 使 logits 重 塑 为 time-major 类 型 的 数据 ， 这 对 于 将 要 使 用 的 损失 函数 是 必要 的 : 


# 将 logits 重 塑 为 time-major 
time major train logits=tf.reshape (logits, [num unrollings,batch size,-1]) 


# 创建 训练 标签 ， 以 便 用 来 计算 损失 函数 


time major train labels = tf.reshape(tf.concat (train labels,axis=0), 


[num unrollings,batch size]) 


我 们 将 确定 从 LSTM 和 softmax 层 计算 的 输出 与 实际 标签 之 间 的 损失 。 为 此 ， 我 们 将 使 
疆 contrib.seq2seq.sequence_loss 函数 。 该 函数 广泛 用 于 机 器 翻译 任务 ， 以 计算 模型 输出 翻译 和 实际 
翻译 之 问 的 差异 ， 这 些 翻译 是 词 序列 。 同 样 的 概念 可 以 扩展 到 我 们 的 问题 ， 因 为 我 们 基本 上 都 是 输 
出 一 系列 单词 : 
# 我 们 使 用 sequence-to-sequence 损失 函数 来 定义 损失 
# 计算 批 处 理 数据 的 平均 值 
# 我 们 得 到 了 序列 长 度 的 总 和 


1oss = tf.contrib.seq2seq.sequence loss( 
logits = tf.transpose (time major train logits, [1,0,2]), 


targets = tf.transpose (time major train labels), 
weights= tf.ones([batch size, num unrollings], 


dtype=tf.float32), 
average across timesteps=False, 


average across batch=True 


) 


loss = tf.reduce sum(loss) 

下 面 来 看 看 这 个 损失 函数 的 参数 。 

@ logits: 之 前 计算 的 非 标准 化 预测 分 数 . 此 函数 接收 按 以 下 形式 排序 的 logits: [batch_size， 
num _unrollings，vocabulary_size]。 为 此 ， 我 们 使 用 tftranspose 函数 。 

@ targets: 批 处 理 或 输入 序列 的 实际 标签 。 这 些 在 [batch size，num_unrollings] 中 是 必需 的 。 

@ ”weights: 我 们 在 时 间 轴 和 batch 轴 上 给 予 每 个 位 置 的 权重 值 。 我 们 不 会 根据 它们 的 位 置 来 
区 分 输入 ， 所 以 将 所 有 位 置 设置 为 1。 

@ average_across_timesteps: 我 们 不 对 跨 时 间 步 长 的 损失 求 平均 值 。 我 们 需要 跨 时 间 步 长 的 
总 和 ， 因 此 这 里 将 其 设置 为 False。 

@@ ”average_across_batch: 我 们 需要 对 批 处 理 的 损失 求 平均 值 ， 因 此 这 里 将 其 设置 为 True。 


接 下 来 定义 优化 器 ， 如 下 : 
# 用 于 衰减 学 习 率 


gstep = tf.Variable(0, trainable=False) 
# 运行 此 操作 将 导致 gstep 值 的 增加 ， 从 而 降低 学 习 速率 
inc gstep = tf.assign(gstep, gstep+1) 


# Adam 优化 器 和 梯度 裁剪 
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tf learning rate = tf.train.exponential decay(0.001,gstep,decay steps=1, 
decay rate=0.5) 

print('Defining optimizer') 

optimizer = tf.train.AdamOptimizer (tf learning rate) 

gradients, Vv = zip(*optimizer.compute gradients (loss)) 

gradients, _ = tf.clip by global norml(gradients, 5.0) 

optimizer = optimizer.apply gradients (zip(gradients, v)) 


inc gstep = tf.assign(gstep, gstep+1) 


定义 了 所 有 函数 后 ， 现 在 可 以 运行 代码 文件 中 的 代码 了 。 
8.10 总 结 


在 本 章 中 , 我 们 首先 从 文本 自动 生成 的 三 个 方面 (文本 到 文本 的 生成 、 意 义 到 文本 的 生成 、 数 
据 到 文本 的 生成 ) 依次 进行 详细 解读 ， 介 绍 文本 自动 生成 三 个 方面 的 模型 研究 情况 ， 使 我 们 对 于 文 
本 自动 生成 的 基本 技术 路 线 有 了 更 清晰 的 认识 。 

其 次 ,在 LSTM 的 算法 实现 中 , 我 们 利用 格林 兄弟 的 故事 文本 训练 我 们 的 LSTM, 并 要 求 LSTM 
输出 一 个 全 新 的 故事 文本 。 

接着 ， 我 们 就 如 何 使 用 窥视 孔 连接 和 GRU 实现 LSTM 进行 了 技术 层面 的 讨论 。 然后， 我 们 在 
标准 LSTM 及 其 变 体 之 间 进行 了 性 能 比较 。 我 们 看 到 LSTM 与 具有 窥视 孔 连 接 和 GRU 的 LSTM 
相 比 表现 更 佳 。 我 们 意外 地 发 现 窥视 孔 连 接 实 际 上 损害 了 模型 性 能 而 不 是 有 助 于 语言 建 模 任务 。 

然后 ， 我 们 讨论 了 可 能 有 助 于 提高 LSTM 生成 质量 更 好 的 文本 的 各 种 优化 方法 。 第 一 个 优化 
方法 是 集束 搜索 。 我 们 研究 了 集束 搜索 的 实现 ， 并 介绍 了 如 何 逐 步 实现 它 。 然 后 ， 我 们 介绍 了 如 何 
使 用 词 向 量 方法 来 使 LSTM 输出 更 好 的 文本 。 

总 之 , LSTM 是 非常 强大 的 机 器 学 习 模 型 ， 可 以 捕获 长 期 和 短期 的 依赖 关系 。 此 外 ， 与 一 次 预 
测 相 比 ， 集 束 搜索 实际 上 有 助 于 产生 更 逼真 的 文本 短语 。 此 外 ， 可 以 发 现 相 比 于 使 用 One-Hot 编码 
的 特征 表示 而 言 ， 使 用 词 向 量 作为 输入 将 会 获得 更 佳 的 性 能 。 

在 下 一 章 中 ， 我 们 将 讨论 另 一 个 涉及 LSTM 的 NLP 任务 : 生成 图 像 字幕 。 


利用 LSTM 实现 图 像 字幕 自动 生成 


在 上 一 章 中 ,我 们 了 解 了 如 何 使 用 LSTM 生成 文本 。 本 章 将 使 用 LSTM 来 解决 更 复杂 的 任务 : 
为 给 定 图 像 生成 合适 的 字幕。 图 像 到 文本 的 生成 技术 是 指 根据 给 定 的 图 像 生 成 描述 该 图 像 内 容 的 自 
然 语言 文本 , 例如 新 闻 图 像 附带 的 标题 、 医 学 图 像 附带 的 说 明 、 儿 童 教育 中 常见 的 看 图 说 话 以 及 用 
户 在 微 博 等 互联 网 应 用 中 上 传 图 片 时 提供 的 说 明文 字 。 依 据 所 生成 自然 语言 文本 的 详细 程度 及 长 度 
的 不 同 , 这 项 任务 可 以 分 为 图 像 标题 自动 生成 和 图 像 说 明文 字 自动 生成 。 前 者 需要 根据 应 用 场景 突 
出 图 像 的 核心 内 容 , 例如 为 新 闻 图 片 生成 的 标题 需要 突出 与 图 像 内 容 密切 关联 的 新 闻 事件 , 并 在 表 
达 方 式 上 求 新 以 吸引 读者 的 眼球 ; 而 后 者 通常 需要 详细 描述 图 像 的 主要 内 容 , 例如 为 有 视力 障碍 的 
人 提供 简洁 翔实 的 图 片 说 明 , 力求 将 图 片 的 内 容 全 面 且 有 条 理 的 陈述 出 来 ,而 在 具体 表达 方式 上 并 
没有 具体 的 要 求 。 

对 于 图 像 到 文本 的 自动 生成 这 一 任务 , 人 类 可 以 毫 不 费力 地 理解 图 像 内 容 , 并 按 具 体 需 求 以 自 
然 语言 句子 的 形式 表述 出 来 ， 然 而 对 于 计算 机 而 言 ， 则 是 一 种 新 兴 的 深度 学 习 应 用 ， 需 要 综合 运用 
图 像 处 理 、 计 算 机 视觉 和 自然 语言 处 理 等 几 大 领域 的 研究 成 果 。 这 个 任务 更 加 复杂 ， 因 为 解决 它 涉 
及 多 个 子 任务 ， 例 如 训练 /使 用 CNN 来 生成 图 像 的 编码 向 量 、 学 习 词 向 量 以 及 训练 LSTM 来 生成 
字幕 。 因 此 ， 这 并 不 像 我 们 第 8 章 提 到 的 文本 生成 任务 那样 简单 ， 我 们 只 是 以 序列 的 方式 输入 文本 
和 输出 文本 。 作 为 一 项 标志 性 的 交叉 领域 研究 任务 , 图 像 到 文本 的 自动 生成 吸引 着 来 自 不 同 领域 研 
究 者 的 关注 。 

自动 生成 图 像 字幕 或 图 像 标 注 具 有 广泛 的 应 用 。 最 突出 的 应 用 之 一 是 搜索 引擎 中 的 图 像 检索 。 
自动 生成 图 像 字幕 可 用 于 根据 用 户 的 请 求 检 索 属 于 特定 概念 的 所 有 图 像 〈 例 如 狗 ) 。 另 一 个 应 用 是 
在 社交 媒体 中 ， 当 用 户 上 传 图 像 时 ， 图 像 被 自动 字幕 化 ， 使 得 用 户 可 以 细 化 生成 的 字幕 或 按 原样 发 
布 。 

本 章 首先 回顾 图 像 字幕 的 主要 发 展 历程 及 其 在 研究 和 行业 部 署 中 的 影响 。 其 次 , 介绍 研究 人 员 
针对 图 像 字幕 而 开发 的 两 个 主要 基于 深度 学 习 的 方案 。 然 后 , 对 近年 来 从 图 像 生成 字幕 的 研究 进行 
综述 。 最 后 ， 给 出 一 个 图 像 字幕 案例 详解 。 我 们 前 期 将 处 理 来 自 数据 集 (MS-COCO) 的 图 像 以 获 
得 具有 预 训练 卷 积 神经 网 络 CNN) 的 图 像 编 码 ，CNN 是 我 们 所 熟知 的 擅 于 处 理 图 像 分 类 的 神经 
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网 络 。CNN 将 采用 固定 大 小 的 图 像 作为 输入 并 输出 图 像 所 属 的 类 别 〈 例 如 狗 、 猫 、 老 虎 、 汽 车 和 
树 等 ) 。 使 用 该 CNN 可 以 获得 描述 图 像 的 压缩 编码 向 量 。 然 后 ， 我 们 将 处 理 图 像 的 字幕 ， 以 学 习 
在 字幕 中 找到 的 词 向 量 。 我 们 还 可 以 使 用 预 训练 的 词 向 量 来 完成 此 任务 。 最 终 ， 在 获得 图 像 和 词 编 
码 后 ， 我 们 将 它们 输入 LSTM 并 在 图 像 及 其 各 自 的 字幕 上 进行 训练 ， 以 便 为 一 组 未 知 的 图 像 〈 验 
证 集 ) 生成 对 应 的 字幕 。 


9.1 简要 介绍 


除了 作为 对 话 系统 不 可 或 缺 的 组 成 部 分 外 , 自然 语言 生成 (NaturalLanguageGeneration, NLG) 
还 在 文本 摘要 、 机 器 翻译 、 图 像 和 视频 字幕 以 及 其 他 自然 语言 处 理 (NLP) 应 用 中 发 挥 着 关键 作用 。 
本 章 不 是 对 一 般 的 NLG 技术 进行 全 面 的 分 析 ， 而 是 在 一 个 特殊 的 应 用 中 对 应 用 范围 进行 了 限制 ， 
从 而 完成 图 像 字幕 自动 生成 任务 。 由 于 近年 来 深度 学 习 的 进步 ，NLG 任务 也 取得 了 巨大 进展 。 


9.2 发 展 背景 


长 期 以 来 , 人 们 一 直 认 为 总 有 一 天 机 器 可 以 拥有 和 人 类 一 样 的 智能 去 理解 整个 视觉 的 世界 。 由 
于 深度 学 习 的 进步 〈Hinton 等 ，2012; Dahl 等 ，2011; Deng 和 Yu，2014) ， 现 在 研究 人 员 可 以 
构建 非常 深 的 卷 积 神经 网 络 (CNN) ， 完 成 大 规模 图 像 分 类 等 任务 ， 并 达到 令 人 印象 深刻 的 低 错 
误 率 〈Krizhevsky 等 ，2012; He 等 ，2015) 。 在 这 些 任务 中 ， 为 了 训练 用 于 预测 给 定 图 像 类 别 的 
模型 , 可 以 首先 用 来 自 预 定义 类 别 集合 的 类 别 标签 对 训练 集合 中 的 每 个 图 像 进行 注释 。 通 过 这 种 完 
全 监督 的 训练 ， 计 算 机 可 以 学 习 如 何 对 图 像 进行 分 类 。 

当 我 们 希望 计算 机 理解 复杂 场景 时 ,这 种 情况 可 能 变 得 更 具 挑战 性 。 图像 字幕 自动 生成 就 是 这 
样 的 任务 之 一 。 而 挑战 来 自 两 个 方面 。 首 先 ， 为 了 生成 一 个 语义 有 意义 、 句 法 流畅 的 字幕 ， 系 统 需 
要 检测 图 像 中 显著 的 语义 概念 ， 理解 它们 之 间 的 关系 ， 并 对 图 像 的 整体 内 容 进 行 连贯 的 描述 ， 这 涉 
及 对 象 识 别 之 外 的 语言 和 常识 知识 的 建 模 工 作 。 此 外 ,由 于 图 像 中 场景 的 复杂 性 ， 很 难 用 简单 的 类 
别 属性 来 表示 它们 之 问 颗粒 度 的 细微 差别 。 而 关于 训练 图 像 字幕 模型 的 监督 工作 是 为 了 用 自然 语言 
对 图 像 的 内 容 进 行 全 面 描述 , 由 于 图 像 中 的 子 区 域 和 描述 中 的 词 之 间 缺 乏 细 粒 度 的 对 应 ， 有 时 这 种 
描述 是 模糊 的 。 

此 外 ,图 像 字幕 自动 生成 与 图 像 分 类 任务 不 同 。 在 图 像 分 类 任务 中 , 将 图 像 与 基础 事实 进行 比 
较 之 后 , 我 们 可 以 很 容易 地 判断 分 类 的 输出 是 正确 的 还 是 错误 的 , 且 有 多 种 有 效 的 方式 来 描述 图 像 
的 内 容 。 而 我 们 要 判断 生成 的 字幕 是 否 正确 以 及 达到 何 种 程度 ， 则 很 难得 出 结论 。 在 实践 中 ,通常 
采用 人 工 的 方法 来 判断 给 定 图 像 字幕 的 质量 。 然 而 ， 由 于 人 工 评价 成 本 高 、 耗 时 长 ， 人 们 提出 了 许 
多 自动 化 的 度量 标准 ， 这 些 度量 标准 主要 用 于 加 速 系统 的 开发 周期 。 

早期 的 图 像 字幕 处 理 方法 大 致 可 以 分 为 两 大 类 。 一 类 是 基于 模板 匹配 的 〈Farhadi 等 ，2010; 
Kulkarmi 等 ，2015) 方法 ， 这 类 方法 从 检测 图 像 中 的 对 象 、 动 作 、 场 景 和 属性 开始 ， 然 后 将 它们 填 
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充 到 手工 设计 的 刚性 的 句子 模板 中 。 这 类 方法 产生 的 字幕 并 不 总 是 流畅 和 富有 表现 力 的 。 另 一 类 是 
基于 检索 的 方法 , 该 方法 首先 从 大 型 数据 库 中 选择 一 组 视觉 上 相似 的 图 像 , 然后 将 检索 到 的 图 像 的 
字幕 转换 为 适合 查询 的 图 像 (Hodosh 等 ，2013; Ordonez 等 ，2011) 。 基 于 查询 图 像 的 内 容 而 修 
改 单词 的 灵活 性 较 小 ， 因 为 它们 直接 依赖 于 训练 图 像 的 字幕 ， 并 且 不 能 生成 新 的 字幕 。 

利用 深度 神经 网 络 就 可 以 通过 生成 流畅 和 富有 表现 力 的 字幕 来 解决 上 面 遇 到 的 这 两 个 问题 ,这 
些 字幕 也 可 以 推广 到 训练 集 以 外 的 地 方 。 特 别 是 最 近 在 图 像 分 类 中 使 用 神经 网 络 的 成 功 
(Krizhevsky 等 ，2012; He 等 ，2015) 和 物体 检测 (Girshick，2015) 激发 了 人 们 对 使 用 神经 网 络 
进行 视觉 字幕 的 浓厚 兴趣 。 


9.3 利用 深度 学 习 框 架 从 图 像 中 生成 字幕 


9.3.1 End-to-End 框架 


最 近 ， 由 于 机 器 翻译 中 序列 到 序列 (Sequence-to-Sequence) 学 习 的 成 功 (Sutskever 等 ，2014; 

Bahdanau 等 ，2015) ， 研 究 人 员 研 究 了 用 于 图 像 字幕 的 端 到 端 〈End-to-End) 的 编码 器 -解码 器 
(Encoder-Decoder) 框架 (Vinyals 等 ，2015; Karpathy 和 Fei-Fei，2015; Fang 等 ，2015; Devlin 
等 ，2015; Chen 和 Zitnick，2015) 。 图 9-1 展示 了 一 个 典型 的 基于 编码 器 -解码 器 的 图 像 字幕 生成 
系统 (Vinyals 等 ，2015) 。 在 该 框架 中 ， 首 先 通过 全 局 视觉 特征 向 量 对 原始 图 像 进行 编码 ， 该 向 
量 通过 深度 CNN 表示 图 像 的 整体 语义 信息 。 如 图 9-2 所 示 ，CNN 由 几 个 卷 积 层 、 最 大 池 化 、 响 应 
归 一 化 和 完全 连接 层 组 成 。 在 这 里 ，CNN 在 大 型 ImageNet 数据 集 上 接受 了 1000 个 类 别 的 图 像 分 
类 任务 的 训练 (Deng 等 ，2009) 。 该 AlexNet 的 最 后 一 层 包含 1000 个 节点 ， 每 个 节点 对 应 一 个 类 
别 。 同 时 ， 抽 取 倒 数 第 二 个 完全 连接 的 密集 层 作为 全 局 视觉 特征 向 量 ， 表 示 整 个 图 像 的 语义 内 容 。 
给 定 一 个 原始 图 像 , 第 二 层 到 最 后 一 层 完全 连接 的 激活 值 通常 被 抽取 为 全 局 视觉 特征 向 量 。 这 种 结 
构 对 于 大 规模 的 图 像 分 类 已 经 非常 成 功 , 并且 所 学 习 的 特征 已 经 显示 出 可 以 应 用 于 各 种 各 样 的 视觉 
任务 中 。 


global visual Caption 
vector 


> » 9 baby holding a toothbrush in 
its mouth 


图 9-1 使 用 CNN 和 RNN 对 图 像 进行 端 到 端 训 练 的 自然 语言 生成 (He 和 Deng，2017) 
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Raw Image po s layer 


Global visual feature 
vector 


图 9-2 深度 CNN (例如 AlexNet) 被 用 作 图 像 字幕 系统 的 前 端 (Front-end) 编码 器 
(He 和 Deng, 2017) 


我 们 一 旦 提取 了 全 局 视觉 向 量 ， 就 将 其 输入 到 另 一 个 基于 循环 神经 网 络 RNN) 的 解码 器 以 
生成 字幕 ， 如 图 9-3 所 示 。 在 初始 步骤 中 ， 表 示 图 像 总 体 语义 的 全 局 视觉 向 量 被 输入 RNN 中 以 便 
在 第 一 步 计算 隐藏 层 。 同 时 ， 在 第 一 步 中 ， 使 用 句子 开始 符号 <s> 作 为 对 隐藏 层 的 输入 。 然 后 ， 从 
隐藏 层 生 成 第 一 个 单词 。 继续 此 过 程 ,在 上 一 步 中 生成 的 单词 将 成 为 下 一 步 隐藏 层 的 输入 ， 以 生成 
下 一 个 单词 。 这 个 生成 过 程 一 直 进 行 到 生成 句 尾 符号 </s> 为 止 。 在 实践 中 ， 我 们 经 常 使 用 RNN 的 
两 个 变 体 : 长 短期 记忆 网 络 (LSTM，Hochreiter 和 Schmidhuber，1997)〉 和 门 控 循环 单元 (GRU， 
Chung 等 ，2015) ， 两 者 都 被 证 明 能 够 有 效 地 训练 和 捕获 长 期 语言 的 依赖 性 (Bahdanau 等 ，2015; 
Chung 等 ，2015) ， 而 且 在 行为 识别 任务 中 得 到 了 成 功 的 应 用 (Varior 等 ，2016) 。 


a baby holding mouth </s> 
global visual 个 个 遇 
Vector r 一 一 | 
一 | | 一 一 全 | | 一 一 全 | ” 
" 时 | 中 
<s> a baby its mouth 


图 9-3 RNN 用 作 图 像 字幕 系统 的 后 端 (Back-end) 解码 器 (He 和 Deng，2017) 


使 用 上 述 端 到 端 框架 的 代表 性 研究 包括 图 像 字幕 生成 (Chen 和 Zitnick,2015;Devlin 等 ,2015; 
Donahue 等 ，2015; Gan 等 ，2017; Karpathy 和 Fei-Fei，2015; Mao 等 ，2015; Vinyals 等 ，2015) 
和 视频 字幕 生成 “Venugopalan 等 ，2015; Ballas 等 ，2016; Pan 等 ，2016; Yu 等 ，2016) 。 两 种 
方法 的 区 别 主要 在 于 CNN 架构 的 类 型 和 基于 RNN 的 语言 模型 。 例 如 , Karpathy 和 Fei-Fei(2015)、 
Mao 等 人 (2015) 在 实验 中 使 用 了 Vanilla RNN 模型 , 而 Vinyals 等 人 (2015) 使 用 了 LSTM 模型 。 
在 Vinyals 等 人 (2015 年 ) 实验 的 第 一 步 中 ， 视 觉 特 征 向 量 仅 被 输入 RNN 一 次 ， 而 它 在 Karpathy 
和 Fei-Fei (2015 年 ) 实验 的 RNN 的 每 个 时 间 步 长 中 都 有 使 用 。 有 必要 指出 的 是 ， 深 度 CNN 对 于 
图 像 到 文本 应 用 的 成 功 至 关 重 要 ， 它 考虑 了 图 像 输入 的 特殊 平移 不 变 特性 。 
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近期 ，Xu 等 人 〈2015) 利用 基于 注意 力 机 制 学 习 了 在 字幕 生成 期 间 有 关 图 像 中 聚焦 的 位 置 。 
注意 力 机 制 结构 如 图 9-4 所 示 。 与 简单 的 编码 器 -解码 器 方法 不 同 ， 基 于 注意 力 的 方法 使 用 CNN 不 
仅 生 成 全 局 视觉 向 量 ， 还 为 图 像 中 的 子 区 域 生成 一 组 视觉 向 量 ， 这 些 子 区 域 向 量 可 以 从 CNN 的 下 
卷 积 层 中 提取 。 在 语言 生成 中 ， 在 生成 新 词 的 每 个 步骤 中 ，RNN 将 参考 这 些 子 区 域 向 量 ， 并 确定 
每 个 子 区 域 与 当前 状态 相关 的 可 能 性 来 生成 该 词 。 最 终 ， 注 意 力 机 制 将 形成 一 个 上 下 文 向 量 ， 它 是 
关联 可 能 性 加 权 的 子 区 域 视觉 向 量 之 和 ， 用 于 RNN 对 下 一 个 新 词 进 行 解码 。 


Blobal visual Caption 
Vector 
CNN -mm 。 Q baby holding oa toothbrush in 
its mouth 
ED Attention context vector 
Visual vectors 
for sub-regions 


9-4 图像 字幕 系统 的 自然 语言 生成 过 程 中 的 注意 力 机 制 (来 自 He 和 Deng， 2017) 


Yang 等 人 紧 接 着 进行 这 项 工作 〈2016) ， 其 中 引入 了 一 个 审查 模块 来 改进 注意 力 机 制 ， 并 且 
Liu 等 人 〈2016) 进一步 提出 了 一 种 提高 视觉 注意 力 正 确 性 的 方法 。 最 近 ，Anderson 等 人 (2017) 
提出 了 基于 目标 检测 的 自 下 而 上 的 注意 力 模型 ， 展示 了 图 像 字幕 的 最 新 性 能 。 在 该 框架 中 ， 所 有 参 
数 (包括 CNN、RNN 和 注意 力 模型 ) 都 可 以 从 整体 模型 的 开始 到 结束 部 分 进行 联合 训练 ， 因 此 称 
为 “ 端 到 端 ”。 


9.3.2 组合 框架 


与 刚刚 描述 的 端 到 端的 编码 器 -解码 器 框架 不 同 ， 单 独 的 一 类 图 像 到 文本 (Image-to-Text) 方 
法 是 使 用 显 式 语义 -概念 -检测 (Semantic-Concept-Detection〉 过 程 来 生成 字幕 。 检 测 模型 和 其 他 模 
块 通常 是 分 别 进行 训练 的 .图 9-5 给 出 了 Fang 等 人 (2015 ) 提 出 的 基于 语义 -概念 -检测 的 组 合 方法 。 
这 种 方法 类 似 于 语音 识别 中 长 期 存在 的 结构 ， 并 受到 该 结构 的 驱动 ,该 结构 由 声学 模型 、 发 音 模型 
和 语言 模型 的 多 个 模块 组 成 (Baker 等 ,2009; Hinton 等 ,2012; Deng 等 ,2013; Deng 和 O’Shaughnessy， 
2003) 。 


Semantic tags 
baby 
> mouth N-best 
| “站 | caption ~ 0 baby holding a 
4 holding ” hypotheses toothbrush in its 
mouth 
一 一 一 
global visual 
Vector 


图 9-5 基于 语义 -概念 -检测 的 组 合 方法 的 图 像 字幕 (He 和 Deng，2017) 
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在 此 框架 中 ， 字 幕 生 成 管道 (Pipeline， 有 时 也 称 为 流水 线 ) 的 第 一 步 是 检测 一 组 语义 概念 ， 
称 为 标记 或 属性 ， 它 们 可 能 是 图 像 描述 的 一 部 分 。 这 些 标 记 可 以 属于 任何 词类 ,包括 名 词 、 动 词 和 
形容 词 。 与 图 像 分 类 不 同 ， 标 准 监督 学 习 技术 不 能 直接 应 用 于 学 习 检 测 器 ， 因 为 监督 仅 包含 整个 图 
像 和 人 工 注释 的 全 部 字幕 语句 ， 而 与 单词 对 应 的 图 像 语 义 的 边界 是 未 知 的 。 为 了 解决 这 个 问题 ， 
Fang 等 人 (2015) 提出 使 用 多 实例 学 习 (Multiple Instance Leaming，MIL ) 的 弱 监 督 方法 来 学 习 检 
测 器 (Zhang 等 , 2005) 。 而 在 Tran 等 人 (2016) 的 论文 中 ,该 问题 被 视 为 多 标签 分 类 (Multi-Label 
Classification) 任务 。 

在 Fang 等 人 (2015) 的 论文 中 , 将 检测 到 的 标签 提供 给 基于 N-Gram 的 最 大 焙 (Max-Entropy) 
语言 模型 来 生成 字幕 假设 的 列表 。 每 个 假设 都 是 覆盖 某 些 标记 的 完整 句子 , 并 且 由 定义 词 序列 概率 
分 布 的 语言 模型 所 建 模 的 语法 进行 规则 化 。 

然后 , 通过 对 整个 句子 和 整个 图 像 计 算 的 特征 的 线性 组 合 (包括 句子 长 度 、 语 言 模型 得 分 以 及 
整个 图 像 和 整个 字幕 假设 之 间 的 语义 相似 性 ) ， 对 所 有 假设 重新 排序 。 其 中 ， 图 像 字幕 语义 相似 度 
是 通过 深层 多 模 态 相似 度 模型 来 计算 的 , 该 模型 是 先前 为 信息 检索 开发 的 深层 结构 化 语义 模型 的 多 
模 态 扩展 〈Huang 等 ，2013) 。 这 种 “语义 ”模型 由 一 对 神经 网 络 组 成 ， 用 于 将 每 个 输入 模式 、 图 
像 和 语言 映射 为 公共 语义 空间 中 的 向 量 , 然后 将 图 像 字幕 语义 相似 性 定义 为 它们 向 量 之 间 的 余弦 相 
似 性 。 

与 端 到 端 框架 相 比 , 组 合 方法 在 系统 开发 和 部 署 方 面 提供 了 更 好 的 灵活 性 , 并 有 助 于 利用 各 种 
数据 源 更 有 效 地 优化 不 同 模块 的 性 能 ,而 不 是 在 有 限 的 图 像 字幕 配对 上 学 习 所 有 模型 的 数据 。 另 一 
方面 , 端 到 端 模型 通常 具有 更 简单 的 架构 , 可 以 与 组 合 方法 联合 在 一 起 来 优化 整个 系统 的 不 同 组 件 
进而 获得 更 好 的 性 能 。 

最 近 ， 研 究 人 员 提 出 了 一 类 模型 来 将 显 式 语义 -概念 -检测 集成 在 编码 器 -解码 器 框架 中 。 例 如 ， 
Ballas 等 人 2016) 将 检索 到 的 句子 应 用 为 附加 的 语义 信息 ， 以 在 生成 字幕 时 指导 LSTM 模型 ， 而 
在 Fang 等 人 的 论文 (2015) 、You 等 人 的 论文 (2016) 和 Tran 等 人 (2016) 的 论文 中 ， 他 们 在 生 
成 句子 之 前 使 用 了 语义 -概念 -检测 过 程 。 在 Gan 等 人 2017b) 的 论文 中 ， 基 于 检测 出 的 用 于 构成 
字幕 的 语义 概念 的 概率 ， 构 造 语义 组 合 网 络 。 这 一 系列 方法 代表 了 当前 图 像 字幕 的 最 新 技术 。 

从 架构 和 任务 定义 的 角度 来 看 ， 这 种 用 于 图 像 字幕 和 语音 识别 的 组 合 框架 具有 多 个 共同 的 主题 。 
这 两 个 任务 都 有 自然 语言 句子 的 输出 ， 只 是 前 者 输入 不 同 的 图 像 像 素 ， 而 后 者 输入 不 同 的 语音 波形 而 
己 。 图 像 字幕 中 的 属性 检测 模块 与 语音 识别 中 的 语音 识别 模块 起 着 类 似 的 作用 (Deng 和 Yu，2007) 。 
使 用 语言 模型 将 图 像 中 检测 到 的 属性 转换 为 图 像 字幕 中 的 字幕 假设 列表 ， 在 语音 识别 的 后 期 阶段 具有 
对 应 的 关系 ， 将 声学 特征 和 语音 单元 转换 为 词汇 正确 的 单词 假设 集合 〈 通 过 发 音 模型 ) ， 然 后 进入 语 
言 合 理 的 单词 序列 〈 通 过 语言 模型 ) (Bridle 等 ，1998; Deng，1998) 。 图 像 字幕 重新 排序 模块 的 独 
特 之 处 在 于 ， 之 前 的 属性 检测 模块 不 具备 完整 图 像 的 全 局 信息 ， 而 要 为 完整 图 像 生成 有 意义 的 自然 语 
句 就 需要 这 些 信息 。 相 比 之 下 ， 语 音 识别 不 需要 匹配 输入 和 输出 的 全 局 属性 。 


9.3.3 ”其 他 框架 


除了 图 像 字幕 的 两 个 主要 框架 之 外 , 其 他 相关 框架 还 学 习 了 视觉 特征 和 相关 字幕 的 联合 词 向 量 ， 
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例如 Wei 等 人 (2015) 已 经 研究 过 为 图 像 中 的 各 个 区 域 生成 密集 的 图 像 字幕 , 并 且 Pu 等 人 (2016) 

开发 了 用 于 图 像 字幕 的 变 分 自动 编码 器 。 此外， 受 最近 强 化 学 习 成 功 的 激励 ， 图 像 字幕 研究 人 员 还 
提出 了 一 套 基 于 强化 (Reinforce) 学 习 的 算法 ， 以 直接 优化 特定 奖励 的 字幕 模型 。 例 如 ，Rennie 
等 人 (2017) 提出 了 一 种 Self-Critical 序列 训练 算法 ， 它 使 用 强化 算法 来 优化 像 CIDEr 这 样 的 评估 
指标 , 这 通常 是 不 可 微分 的 , 因此 不 容易 通过 传统 的 基于 梯度 的 方法 进行 优化 .在 Ren 等 人 (2017) 

的 文献 中 , 在 Actor - Critic 框架 内 , 学 习 策略 网 络 和 评估 网 络 通 过 优化 视觉 语义 激励 来 生成 字幕 ， 

并 度量 图 像 和 生成 的 字幕 之 间 的 相似 性 。 关于 图 像 字幕 的 生成 , 研究 人 员 近 期 又 提出 了 基于 生成 对 
抗 网 络 (GAN) 的 文本 生成 模型 。 其 中 ，SeqGAN (Yu 等 ，2017) 将 生成 器 建 模 为 强化 学 习 中 的 
随机 策略 ， 如 文本 等 离散 输出 ，RankGAN (Lin 等 ，2017) 提出 了 一 种 基于 排序 的 鉴别 器 损失 ， 它 
可 以 更 好 地 评估 生成 文本 的 质量 ， 从 而 产生 更 好 的 生成 器 。 


9.4 评估 指标 和 基准 


关于 自动 生成 字幕 的 质量 ， 研 究 人 员 曾 在 有 关 自 动 评估 和 人 类 研究 的 文献 中 做 过 评估 和 报告 。 
常用 的 自动 评估 标准 包括 双语 评估 替补 BLEU(Papineni 等 ,2002)、METEOR(Denkowski 和 Lavie， 
2014) 、CIDEr (Vedantam 等 ，2015) 以 及 SPICE (Anderson 等 ，2016) 。BLEU (Papineni 等 ， 
2002) 在 机 器 翻译 中 被 广泛 使 用 ， 并 且 度 量 假设 和 参考 或 一 组 参考 ) 文献 之 间 共 有 的 N-Gram 分 
数 (最 多 4-Gram) 。METEOR (Denkowski 和 Lavie，2014) 度量 的 是 一 元 模型 (Unigram) 的 精 
确 度 和 召回 率 ， 但 是 扩展 了 精确 的 单词 匹配 以 包括 基于 WordNet 同义词 和 词 干 标记 的 类 似 单词 。 
CIDEr (Vedantam 等 ，2015) 还 度量 了 字幕 假设 和 参考 文献 之 间 的 N-Gram 匹配 ， 而 N-Gram 是 通 
过 TF-IDF 进行 加 权 的 。 相 反 ， 在 给 定 参考 文献 的 情况 下 ，SPICE (Anderson 等 ，2016) 可 以 评估 
图 像 字幕 中 包含 语义 命题 内 容 的 Fl 得 分 ， 因 此 与 人 类 判断 的 相关 性 最 好 。 这 些 自动 评估 可 以 有 效 
地 计算 ， 因 此 大 大 加 快 了 图 像 字幕 算法 的 发 展 。 然 而 ， 众 所 周知 ， 所 有 这 些 自动 指标 只 与 人 类 的 判 
断 大 致 相关 (Elliott 和 Keller，2014) 。 

截至 到 目前 为 止 , 研究 人 员 已 经 创建 了 许多 数据 集 , 用 于 图 像 字幕 的 研究 .Flickr 数据 集 (Young 
等 ，2014) 和 PASCAL 句子 数据 集 (Rashtchian 等 ，2010) 是 为 了 促进 图 像 字幕 的 研究 而 创建 的 。 
最 近 ， 微 软 公司 赞助 创建 的 COCO (上 下 文中 的 公共 对 象 ) 数据 集 (Lin 等 ，2015) 是 目前 可 供 公 
众 使 用 的 最 大 图 像 字幕 数据 集 。 近 年 来 ,大 规模 数据 集 的 可 用 性 极 大 地 促进 了 图 像 字幕 的 研究 。 在 
2015 年 ， 大 约 15 个 小 组 参加 了 COCO 字幕 挑战 赛 (Cui 等 ，2015) 。 挑 战 中 的 项 目 由 人 类 来 判断 
和 评估 。 在 本 次 比赛 中 ， 所 有 参赛 作品 的 评比 结果 中 被 评比 为 “好 ”或 “等 于 ”人 类 水 平 的 字幕 所 
占 比 为 M1， 通 过 图 灵 测 试 的 字幕 所 占 比 为 M2。 另 外 三 个 度量 被 用 作 结 果 的 诊断 和 解释 : 1-5 级 
字幕 的 M3- 平 均 正 确 性 〈 不 正确 -正确 ) 、1~5 级 字幕 的 M4- 平 均 细节 量 〈 缺 乏 细节 -非常 详细 ) 以 
及 与 人 类 描述 相似 的 M5- 百分比 字幕 。 在 评估 中 ,每 个 任务 都 呈现 出 一 个 图 像 和 两 个 字幕 : 一 个 字 
幕 是 自动 生成 的 ， 另 一 个 是 人 工 字幕 。 对 于 M1， 需 要 评判 者 选择 出 哪个 字幕 更 好 地 描述 了 图 像 ， 
或 者 在 质量 相同 时 选择 相同 的 选项 。 对 于 M2， 要 求 评判 者 判断 出 这 两 个 字幕 中 哪个 是 由 人 类 生成 
的 。 如 果 评 判 者 选择 自动 生成 的 字幕 ， 或 者 选择 “无 法 告知 ”选项 ， 就 认为 已 经 通过 了 图 灵 测 试 。 


254 | TensorFlow 与 自然 语言 处 理应 用 


从 2015 年 COCO 字幕 挑战 中 的 前 15 个 图 像 字幕 系统 获得 了 上 述 M1 至 M5 指标 量化 的 结果 ， 
以 及 通过 自动 指标 度量 的 其 他 项 ， 已 在 He 和 Deng (2017) 的 论文 中 进行 了 总 结 和 分 析 。 这 些 系 
统 的 成 功 反 映 了 我 们 在 利用 深度 学 习 方 法 实现 从 感知 到 认 知 这 一 具有 挑战 性 的 任务 上 取得 了 巨大 


9.5 近期 研究 


由 深度 学 习 系 统 根据 图 像 生 成 的 自然 语言 字幕 采用 在 前 面 提供 的 许多 技术 并 提供 了 示例 , 通常 
它们 仅 给 出 图 像 内 容 的 描述 。 自 然 语言 风格 在 字幕 生成 过 程 中 常常 被 忽略 。 具体 来 说 , 现 有 的 图 像 
字幕 系统 一 直 在 使 用 语言 生成 模型 ， 该 模型 将 该 风格 与 其 他 语言 生成 的 语言 风格 混合 ,从 而 缺乏 明 
确 控制 语言 风格 的 机 制 。Gan 等 人 〈2017a) 最 近 的 研究 旨 在 克服 这 一 缺陷 ， 并 进行 了 相关 阐述 。 

对 图 像 进行 浪漫 或 幽默 的 自然 语言 描述 可 以 极 大 地 丰富 字幕 的 可 表达 性 并 使 其 更 具 吸 引力 。 一 
个 有 吸引 力 的 图 像 字幕 将 增加 图 像 的 视觉 兴趣 ,甚至 可 以 成 为 字幕 系统 的 一 个 显著 特征 。 这 对 于 某 
些 应 用 尤其 有 价值 ， 例 如 ， 增 加 用 户 在 同 聊天 机 器 人 “聊天 ”中 的 参与 度 或 在 社交 媒体 的 照片 字幕 
中 启发 用 户 。 

Gan 等 人 (2017a) 提出 了 StyleNet, 它 能 够 仅 使 用 单 语 言 程序 化 语言 语料库 (没有 配对 图 像 ) 
和 标准 事实 图 像 / 视 频 -字幕 对 来 生成 具有 自身 风格 的 有 吸引 力 的 图 像 字幕 。StyleNet 是 基于 卷 积 神 
经 网 络 CCNN) 和 循环 神经 网 络 (RNN) 的 结合 ， 用 于 图 像 字幕 处 理 。 这 项 工作 受到 多 任务 序列 
对 序列 训练 的 精神 激励 (Luong 等 ，2015) 。 特 别 是 ， 它 引入 了 一 种 新 的 LSTM 模型 ， 该 模型 可 
以 通过 多 任务 训练 从 句子 中 分 离 出 事实 因素 和 风格 因素 。 然 后 , 在 运行 时 可 以 显 式 地 将 风格 因素 合 
并 在 一 起 ， 为 图 像 生成 不 同 的 风格 的 字幕 。 

其 实 ，StyleNet 在 新 收集 的 Flickr 风格 化 图 像 字幕 数据 集 上 已 经 进行 了 评估 ， 结 果 表 明 所 提出 
的 StyleNet 显著 优 于 先前 由 自动 评估 和 人 类 评估 所 度量 的 最 新 图 像 字幕 方法 。 图 9-6 显示 了 一 些 典 
型 的 图 像 字幕 生成 实例 ， 其 中 观察 到 具有 标准 事实 风格 的 字幕 仅 以 枯燥 的 语言 描述 图 像 中 的 事实 
而 浪漫 和 幽默 风格 的 字幕 不 仅 可 以 描述 图 像 的 内 容 , 还 以 浪漫 或 幽默 的 方式 表达 内 容 。 通 过 生成 带 
有 浪漫 (例如 恋爱 、 真 爱 、 享受、 约会 等 ) 或 幽默 感觉 的 短语 可 以 找到 一 种 委婉 的 表达 方式 。 此 外 ， 
还 发 现 StyleNet 生成 的 短语 与 图 像 的 视觉 内 容 匹配 一 致 , 使 得 字幕 在 视觉 上 是 相关 的 并 具有 吸引 力 。 
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区 

F:A boy sits on the swing. F; A black dog stand in the water 

R: Aboy swings to experience the highs and lows in his life. Re A dog takes a shower in the water bofore dating, 

H: Aboy is sitting on a swing ready to fly. 冯 H: A black dogls running into the water to catch fish. 

FF: A man is riding a blke on a dirt road. F: A brown dog and a black dog play in the snow. 

IR: A bike rider races along a road spesd to fintsh the Ine Re: Two dogs In love are playing together in the snow. 
Ey H: A man rides the bike fast to avoid being late fora class. | | H: A brown dog and a black dog are fighting for a bone 


a 
Si F: A football player in a red unitorm is running with football. ~ 1 Two men are sitting on a bench under a tree . 
\ Ef: A footal piayer in red is running to win the oame. Re: Two men are waiting for their irue love 
H: A football player In red Is challenging ihe player in a game, H: Two men sit In the city park to catch pokemon oo. 


9-6 由 StyleNet 进行 图 像 生成 字幕 的 6 个 示例 ， 每 个 生成 的 图 像 字幕 具有 3 种 不 同 的 风格 
9.6 图像 字幕 的 产业 布局 


在 研究 界 迅速 发 展 的 推动 下 ， 业 界 开始 部 署 图 像 字幕 服务 。 在 2016 年 3 月 ， 微 软 公 司 向 公众 
发 布 了 作为 云 API 的 图 像 字幕 服务 。 为 了 展示 该 功能 的 用 法 ， 它 还 部 署 了 一 个 名 为 CaptionBot 
(http:/CaptionBotai) 的 Web 应 用 程序 ， 用 于 描述 用 户 上 传 的 任意 图 片 。 最 近 ， 微 软 在 广泛 使 用 
的 Office 产品 中 部 署 了 字幕 生成 服务 , 特别 是 Word 和 PowerPoint 的 应 用 上 , 用 于 自动 生成 备 选 文 
本 ， 以 便于 访问 。Facebook 公司 也 发 布 了 一 个 图 像 字幕 自动 生成 的 工具 ， 提 供 了 照片 中 标识 的 对 
象 和 场景 的 列表 。 同 时 ，Google 公司 为 社区 开放 了 图 像 字幕 自动 生成 系统 。 

通过 这 些 在 行业 内 大 规模 的 部 署 和 开源 项 目 ， 实 际 场景 中 的 大 量 图 像 和 用 户 反馈 正在 被 收集 ， 
作为 不 断 增 加 的 训练 数据 ,以 稳定 地 提高 系统 的 性 能 。 这 将 反 过 来 激发 了 用 于 视觉 理解 和 自然 语言 
生成 的 深度 学 习 方 法 的 新 研究 。 


9.7 详解 图 像 字幕 自动 生成 任务 
9.7.1 认识 数据 集 


首先 直接 和 间接 地 了 解 我 们 正在 使 用 的 数据 ， 是 下 面 两 个 数据 集 : 


© TheILSVRC ImageNet dataset (http:/image-net.org/download ) 
© The MS-COCO dataset (http://cocodataset.org/#download ) 


我 们 不 会 直接 使 用 第 一 个 数据 集 , 但 它 对 于 字幕 学 习 至 关 重要 。 此 数据 集 包含 图 像 及 其 各 自 的 
类 别 标签 (例如 猫 、 狗 、 汽 车 和 树 等 ) 。 我 们 将 使 用 一 个 已 经 在 这 个 数据 集 上 训练 过 的 CNN， 所 
以 不 必 从 头 开 始 下 载 和 训练 这 个 数据 集 。 接 下 来 ， 将 使 用 MS-COCO 数据 集 ， 其 中 包含 图 像 及 其 
各 自 的 字幕 。 我 们 将 使 用 CNN 将 图 像 映射 到 固定 大 小 的 特征 向 量 ， 然 后 使 用 LSTM 将 此 向 量 映射 
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到 相应 的 字幕 ， 直 接 从 该 数据 集中 学 习 〈 稍 后 将 详细 讨论 该 过 程 ) 。 
1. ILSVRC ImageNet 数据 集 


ImageNet 是 一 个 图 像 数据 集 ,包含 大 量 图 像 ( 约 一 百 万 个 ) 及 其 各 自 的 标签 .这 些 图 像 属 于 1 000 
个 不 同 的 类 别 。 此 数据 集 非 常 具 有 表现 力 , 并 且 在 我 们 要 为 其 生成 字幕 的 图 像 中 可 以 找到 几乎 所 有 
的 对 象 。 因 此 ，ImageNet 是 一 个 很 好 的 训练 数据 集 ， 便 于 我 们 获得 生成 字幕 所 需 的 图 像 编 码 。 我 
们 将 间接 地 使 用 这 个 数据 集 ， 因 为 我 们 将 使 用 在 该 数据 集 上 训练 好 的 预 训练 CNN。 因 此 ， 我 们 不 
会 下 载 这 个 数据 集 ， 也 不 会 在 此 数据 集 上 训练 CNN。 图 9-7 显示 了 ImageNet 数据 集中 的 一 些 可 用 
类 别 。 


Ses_snake Shetland_sheepdog 


grey_whale 
cellular_telephone 
Granny_Smith gokart frewght_car 


二 


9-7 ”ImageNet 数据 集中 的 一 些小 样 例 


2. MS-COCO 数据 集 


我 们 继续 讨论 数据 集 MS-COCO (Microsoft - Common Objects in Context) ， 这 里 我 们 将 使 用 
2014 年 的 数据 集 。 如 前 所 述 ， 此 数据 集 由 图 像 及 其 各 自 的 文字 描述 所 组 成 。 数 据 集 非常 大 例如， 
训练 数据 集 由 大 约 120 000 个 样本 组 成 ， 数 据 量 超过 15 GB ) ， 这 个 数据 集 每 年 更 新 一 次 ， 然 后 举 
行 竞赛 以 表彰 实现 最 佳 性 能 的 团队 。 当 目标 是 为 了 实现 最 佳 性 能 时 , 使 用 完整 数据 集 就 显得 非常 有 
意义 。 然 而 ， 在 我 们 的 例子 中 ， 是 需要 一 个 模型 ， 它 可 以 合理 地 学 习 具 有 普遍 性 的 图 像 字幕 生成 过 
程 。 因 此， 我 们 将 使 用 较 小 的 数据 集 ( 约 40 000 张 图 像 和 约 200 000 000 个 字幕 ) 来 训练 模型 。 图 
9-8 给 出 了 一 些 可 用 的 样本 。 

为 了 学 习 和 测试 端 到 端 图 像 字幕 自动 生成 模型 ， 我 们 将 使 用 官方 MS-COCO 数据 集 网 站 上 提 
供 的 2014 年 的 验证 数据 集 。 该 数据 集 由 约 41 000 张 图 像 和 约 200 000 个 字幕 组 成 。 我 们 将 使 用 初 
始 的 1 000 个 样本 作为 验证 集 ， 其 余 的 作为 训练 集 。 


在 实践 中 ， 我 们 应 该 使 用 单独 的 数据 集 进行 测试 和 验证 。 但 是 ， 由 于 我 们 使 用 了 有 限 的 
数据 ， 为 了 最 大 化 学 习 效 果 ， 因 此 这 里 考虑 使 用 相同 的 数据 集 进行 测试 和 验证 。 
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A pink and green marker, next to another cbject- 
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A woman with a brown horse in a dirt aree of building- 
A women and a horee In 2 Dem with kt foor. 


Mon In mid ir repching betvween his legs to roech a frisbee. 
ng 也 


a person jumpi 
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A motorcycle that is sitting in the dirt. 


图 9-8 MS-COCO 数据 集中 的 一 些 样 例 
在 图 9-9 中 , 我 们 可 以 看 到 验证 集中 的 一 些 图 像 。 这 些 图 像 是 在 验证 集中 精心 挑选 的 一 些 的 示 
例 ， 展示 了 各 种 不 同 的 对 象 和 场景 。 我们 将 使 用 这 些 图 像 来 检查 结果 ， 因 为 以 可 视 化 方式 检查 验证 
集中 的 1 000 个 样本 是 不 可 行 的 。 


图 9-9 以 这 些 图 像 来 测试 算法 的 图 像 字幕 自动 生成 能 力 


9.7.2 ”用 于 图 像 字幕 自动 生成 的 深度 学 习 管道 


在 这 里 , 我 们 将 看 到 一 个 高 级 别 的 图 像 字幕 自动 生成 管道 , 然后 逐个 讨论 它 ， 直 到 得 到 一 个 完 
整 的 模型 。 图 像 字幕 自动 生成 框架 由 三 个 主要 组 件 和 一 个 可 选 组件 组 成 : 

@ CNN 生成 用 于 图 像 的 编码 向 量 。 

@@“” 词 谈 入 层 学 习 词 向 量 。 

@ (可 选 ) 可 以 将 给 定 词 向 量 维度 转换 为 任意 维度 的 适 配 层 (后续 将 进行 详细 讨论 ) 。 
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@ LSTM 获取 图 像 的 编码 向 量 ， 并 输出 相应 的 字幕 。 


首先 ， 让 我 们 看 一 下 CNN 生成 图 像 的 编码 向 量 。 我 们 可 以 通过 在 大 型 分 类 数据 集 (例如 
ImageNet) 上 训练 CNN 并 使 用 该 知识 生成 图 像 的 压缩 向 量化 表示 来 实现 这 一 点 。 
有 人 可 能 会 问 ， 为 什么 不 将 图 像 输入 LSTM 呢 ? 让 我 们 回 到 第 8 章 中 提 到 的 一 个 简单 计算 : 
“如 果 输 入 层 增 加 了 500 个 单位 ， 就 会 导致 参数 增加 200 000 个 ”。 
我 们 在 这 里 处 理 的 图 像 大 约 在 150 000~224x224x3 之 间 , 这 应 该 可 以 让 你 意识 到 会 导致 LSTM 
参数 数量 增加 的 程度 。 因 此 ， 对 于 压缩 向 量化 表示 的 工作 变 得 至 关 重 要 。LSTM 不 适合 直接 处 理 原 
始 图 像 数 据 的 另 一 个 原因 是 ， 与 使 用 CNN 处 理 图 像 数据 相 比 ， 它 显得 过 于 复杂 。 


其 实 ，LSTM 中 也 存在 着 卷 积 LSTM ( Convolution LSTM ) 这 样 的 变 体 。 卷 积 LSTM 可 
以 使 用 卷 积 运算 代替 全 连接 图 层 去 处 理 图 像 输入 。 这 种 网 络 大 量 用 于 时 空间 题 ( 例如 ， 

天 气 数据 或 视频 预测 ) 其 具有 数据 的 空间 和 时 间 维 度 。 我 们 可 以 从 Je 作 Donahue 等 人 的 
论文 《Long-term Recurrent Convolutional Networks for Visual Recognition and Description) 


( Proceedings of the IEEE conference on Computer Vision and Pattern Recognition，2015 ) 中 
查阅 有 关 卷 积 LSTM 的 更 多 信息 。 


虽然 训练 过 程 完全 不 同 ,但 是 这 个 训练 过 程 的 目标 与 学 习 词 向 量 的 目标 是 相似 的 ,对 于 词 向 量 ， 
我 们 希望 相似 的 词 具 有 相似 的 向 量 〈 高 相似 度 ) ， 而 不 同 的 词 具有 不 同 的 向 量 〈 低 相似 度 ) 。 换 句 
话说 ， 如 果 1magex 表 示 针 对 图 像 x 获 得 的 编码 向 量 ， 那 么 以 下 式 子 应 该 成 立 : 


Distance(Imagecat, IMagevoicano) > Distance(Imagecat, Imageaog) 


接 下 来 ， 我 们 将 通过 从 MS-COCO 数据 集 提供 的 所 有 字幕 中 提取 所 有 单词 来 学 习 被 创建 的 文 
本 语料库 的 词 向 量 。 学 习 词 向 量 有 助 于 我 们 减少 LSTM 输入 的 维度 ， 还 有 助 于 生成 更 有 意义 的 特 
征 作为 LSTM 的 输入 。 这 是 机 器 学 习 管 道中 的 另 一 个 关键 目标 。 

当 我 们 使 用 LSTM 生成 文本 时 , 使 用 单词 的 One-Hot 编码 表示 或 词 向 量 表 示 。 因此 , LSTM 的 
输入 始终 是 固定 大 小 的 。 如 果 输 入 大 小 是 动态 变化 的 ， 我 们 很 难 使 用 标准 LSTM 来 处 理 它 。 其 实 
没有 必要 担心 这 一 点 ， 因 为 我 们 只 处 理 文本 信息 。 

然而 , 在 这 种 情况 下 , 我 们 在 处 理 图 像 和 文本 时 需要 确保 图 像 的 编码 向 量 和 对 应 于 图 像 字幕 的 
每 个 词 的 表示 都 具有 相同 的 维度 .此 外 , 使 用 词 向 量 可 以 为 所 有 单词 创建 任意 固定 长 度 的 表示 方式 。 
因此 ， 我 们 使 用 词 向 量 来 匹配 图 像 编 码 向 量 长 度 。 

最 后 , 我 们 将 为 每 个 图 像 创 建 一 个 数据 序列 ， 其 中 序列 的 第 一 个 元 素 是 图 像 的 向 量化 表示 , 然 
后 是 图 像 字幕 的 词 向 量 。 我 们 将 使 用 这 个 数据 序列 来 训练 LSTM。 

这 种 方法 类 似 于 论文 《Show, Attend and Tell: Neural Jmage Caption Generation with Visual 
Attention》 (Xu 等 ， 第 32 届 机 器 学 习 国际 会 议论 文集 ，2015) 中 发 现 的 方法 ， 相 关 处 理 过 程 如 图 
9-10 所 示 。 
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9-10 用 于 生成 图 像 字幕 的 机 器 学 习 管 道 


9.7.3 使 用 CNN 提取 图 像 特 征 


下 面 详细 讨论 如 何 使 用 CNN 来 提取 图 像 的 特征 向 量 。 为 了 获得 良好 的 特征 向 量 ， 我 们 首先 需 
要 利用 图 像 及 其 对 应 的 图 像 类 别 训练 CNN 或 使 用 互联 网 上 免费 提供 的 预 训练 好 的 CNN。 如 果 我 们 
从 头 开始 训练 CNN, 将 不 得 不 进行 重复 性 的 工作 ,我们 这 里 选择 预 训练 好 的 模型 (可 供 免费 下 载 ) 。 
另外 需要 说 明 的 是 ， 如 果 CNN 需要 能 够 描述 多 个 对 象 ， 那 么 需要 在 对 应 于 各 种 对 象 的 一 组 分 类 上 
进行 训练 。 这 就 是 在 大 型 数据 集 (如 ImageNet) 上 训练 模型 很 重要 的 原因 所 在 〈 例 如 ， 与 只 有 10 
个 不 同类 别 的 小 型 数据 集 的 训练 相 比 ) 。 如 前 所 述 ，ImageNet 包含 1 000 个 对 象 类 别 。 这 对 我 们 试 
图 解决 的 任务 来 说 已 经 足够 了 。 

不 过 ，ImageNet 包含 约 1MB 的 图 像 。 此 外 ， 由 于 有 1000 个 类 ， 显 然 不 能 使 用 具有 简单 结构 
的 小 型 CNN 〈 例 如 ， 具 有 几 层 的 CNN) 来 进行 学 习 。 我 们 需要 更 强大 、 更 深层 次 的 CNN， 但 是 
由 于 CNN 的 复杂 性 和 数据 集 本 身 的 复杂 性 ， 在 GPU 上 训练 这 样 的 神经 网 络 可 能 需要 几 天 〈 甚 至 
几 周 ) 的 时 间 。 例 如 , VGG ( 即 一 个 著名 的 CNN, 在 ImageNet 上 给 出 了 非常 好 的 图 像 分 类 准确 性 ) 
可 能 需要 2~3 周 的 时 间 来 进行 训练 。 

因此 ， 我 们 需要 更 巧妙 的 方法 来 解决 这 个 问题 。 幸 运 的 是 ， 像 VGG 这 样 的 CNN 可 以 随时 下 
载 , 所 以 我 们 可 以 在 没有 进行 任何 单独 训练 的 情况 下 使 用 它们 , 这 就 是 它 被 称 为 预 训练 模型 的 原因 
所 在 。 使 用 预 训练 模型 可 以 使 我 们 节省 数 周 的 时 间 ， 因 为 我 们 所 需要 的 只 是 学 习 的 权重 值 和 CNN 
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的 实际 结构 ， 以 重建 网 络 并 立即 使 用 它 进行 推理 工作 。 

本 实例 中 ,我 们 将 使 用 VGG CNN( 可 在 http://www.cs.toronto.edu/~frossard/post/vgg16/ 处 获得 )。 
VGG 架构 在 2014 年 的 ImageNet 竞赛 中 获得 第 二 名 , 且 VGG 有 几 种 变 体 : 13 层 深度 网 络 (VGG-13)、 
16 层 深 度 网 络 (VGG-16) 和 19 层 深 度 网 络 (VGG-19〉。 我 们 这 里 将 使 用 VGG-16， 其 网 络 架 构 
如 图 9-11 所 示 。 


pool3 pool4 pool5 
convconv cony cony| conv conv cony conv | convcony conv cony 
3132 33 ”| 41 4243 44| 5152 53 54 7 
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图 9-11 VGG-16 网 络 架 构 示意 图 


9.7.4 使 用 VGG-16 加 载 权重 值 并 进行 推理 


网 站 http://www.cs.toronto.edu/~frossard/post/vgg16/ 提 供 了 权重 值 来 作为 NumPy 数组 的 字典 ， 
且 有 16 个 权重 值 和 16 个 偏差 值 对 应 于 16 层 的 VGG-16 模型 ， 它 们 分 别 保存 在 下 面 一 些 字段 中 : 


Convl 1 W, convl 1 b, convl 2 W, convl 2 b, conv2 1 W, conv2 1 b.. 


首先 ， 从 网 站 上 下 载 文 件 并 将 其 保存 至 ch9/image_caption_data 文件 夹 中 。 现 在 我 们 将 讨论 有 具 
体 实 现 过 程 : 从 加 载 下 载 得 到 的 CNN 到 使 用 预 训练 的 CNN 进行 预测 ,首先 ,创建 必要 的 TensorFlow 
变量 并 用 下 载 的 权重 值 来 加 载 它们 。 其 次 ， 定 义 一 个 输入 的 读 取 管道 ， 以 读 取 图 像 来 作为 CNN 的 
输入 以 及 几 个 预 处 理 步骤 。 然 后 定义 CNN 的 推理 操作 以 获得 相关 输入 的 预测 。 接 着 定义 具体 计算 
以 获得 图 像 分 类 ， 并 为 CNN 定义 认为 符合 给 定 输入 的 图 像 的 最 佳 分 类 预测 。 虽 然 最 后 一 个 操作 不 
需要 为 图 像 生 成 字幕 ， 但 是 正确 地 配置 预 训练 的 CNN 非常 重要 。 

1. 构建 和 更 新 变量 


首先 使 用 以 下 内 容 将 包含 CNN 权重 值 的 NumpPy 数组 字典 加 载 到 内 存 中 ( 即 加 载 到 CNN 的 记 
忆 中 ) : 


weight file = os.path.join('image caption data', 'vgg16_ weights.npz') 
weights = np.load(weight file) 


接 下 来 , 创建 TensorFlow 变量 并 为 它们 赋予 实际 的 权重 值 。 此 外 , 这 可 能 占用 相当 多 的 内 存 。 
因此 ， 为 了 避免 机 器 崩溃 ， 我 们 将 特别 要 求 TensorFlow 将 其 保存 在 CPU 而 不 是 GPU 上 。 这 里 将 
简 述 用 于 构建 和 加 载 具 有 正确 权重 值 的 TensorFlow 变量 的 代码 。 我 们 将 首先 在 Python 列表 
TF_SCOPES 中 定义 所 有 字典 的 键 (表示 CNN 的 不 同 层 IDP) 。 然 后 将 迭代 遍历 每 个 图 层 ID， 同 时 
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使 用 相应 的 权重 值 窃 阵 和 偏差 向 量 作为 初始 化 过 程 ,根据 相应 图 层 ID 命名 具体 的 TensorFlow 变量 : 


def build vgg variables (npz_weights) : 


构建 所 需 的 TensorFlow 变量 以 填充 VGG-16 并 用 实际 权重 值 填充 它们 
:param npz weights: loaded weights as a dictionary 
:return: 


params = [] 
print ("Building VGG Variables (TensorFlow)...") 
with tf.variable scope('CNN'): 


# 和 迭代 每 个 卷 积 和 全 连接 层 ， 并 使 用 变量 作用 域 来 创建 TensorFlow 变量 
for si,scope in enumerate (TF SCOPES): 
with tf.variable scope(scope) as sc: 


weight key, bias key=TF SCOPES[si]+' _W', TF_SCOPES[si]+'_b' 


with tf.device('/cpu:0'): 
weights = tf.get variable (TF WEIGHTS_ STR, 
initializer= npz weights[weight key]) 
bias = tf.get variable (TF BIAS STR, initializer = npz weights[bias key]) 
params .extend ( [weights,bias]) 


return params 


2. 预 处 理 输入 

接 下 来 ,定义 一 个 输入 管道 以 便 将 图 像 输 入 到 VGG-16 模型 中 。VGG-16 对 输入 图 像 有 以 下 要 
求 ， 以 使 预测 趋 于 正确 : 

@ 输入 量 应 为 [224,224,3]。 

@ ”输入 应 该 是 零 均值 ( 但 不 是 单位 方差 ) 。 

以 下 代码 创建 一 个 管道 , 该 管道 直接 从 一 组 给 定 的 文件 名 中 读 取 , 且 应 用 前 面 的 转换 并 创建 一 
批 此 类 转换 后 的 图 像 。 此 过 程 在 代码 文件 里 由 preprocess_inputs_with_tfqueue 函数 进行 定义 。 

首先 ， 我们 将 定义 一 个 文件 名 队列 ， 这 里 保存 了 我 们 应 该 读 取 的 文件 名 (图 像 的 文件 名 〉: 


# 文件 名 的 FIFO 队列 
# 创建 FIFO 队列 ， 以 便 ”reader 可 以 读 取 队列 


filename queue = tf.train.string input producer (filenames, capacity=10, 
shuffle=False) 


其 次 , 这 里 将 定义 一 个 读 取 器 , 它 将 文件 名 队列 作为 输入 并 输出 到 一 个 缓冲 区 中 ,而 后 从 该 组 
冲 区 读 取 文件 名 以 找到 和 读 取 对 应 的 图 像 数据 : 
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# 读 取 器 (reader) 采用 文件 名 队列 和 read () 逐个 输出 数据 
reader = tf.WholeFileReader() 
_: image buffer = reader.read(filename queue,name="'image read op') 

# 读 取 原始 图 像 数 据 并 作为 unit8 返回 

dec image = tf.image.decode jpeg (contents= image buffer,channels=3, 
name='decode jpg') 

# 将 unit8 数据 转换 为 f1oat32 类 型 

float image = tf.image.convert image dtype(dec image, 


dtype=tf.float32,name= "float image') 


接 下 来 进行 预 处 理工 作 : 
# 将 图 像 大 小 调整 为 224 X224X3 


resized image = tf.image.resize images (float image, [224,224])*255.0 
# 对 于 VGG 模型 ， 图 像 仅 是 零 均值 的 (不 是 标准 化 的 单位 方差 ) 


std image = resized image - tf.reduce mean(resized image,axis=[0,1], 


keepdims=True) 
在 定义 预 处 理 管道 之 后 ， 我 们 将 要 求 TensorFlow 一 次 生成 一 批 预 处 理 的 图 像 : 


image batch = tf.train.batch([std image], batch size = batch size, 


capacity = 10, allow smaller final batch=False,name='image batch') 


3. 推理 

至 此 ， 我 们 已 经 创建 了 CNN， 且 已 经 定义 了 一 个 管道 用 于 读 取 图 像 ， 通 过 读 取 保存 在 磁盘 上 
的 图 像 文件 来 创建 批 处 理 。 现 在 我 们 想 用 从 管道 读 取 的 图 像 来 推断 CNN。 推 理 是 指 传递 输入 (图 
像 ) 并 获得 预测 〈 属 于 某 类 图 像 的 概率 ) 作为 输出 。 为 此 ， 我 们 将 从 第 一 层 开始 并 从 代 到 softmax 
层 。 此 过 程 在 代码 文件 里 由 inference_cnn 函数 来 定义 。 

在 每 一 层 ， 我 们 将 获得 权重 值 和 偏差 ， 代 码 如 下 

def inference cnn(tf inputs, device): 

with tf.variable scope('CNN'): 

for si, scope in enumerate (TF _ SCOPES): 
with tf.variable scope(scope,reuse=True) as sc: 


weight, bias = tf.get variable (TF WEIGHTS STR), 
tf.get variable (TF BIAS STR) 


然后 对 于 第 一 个 卷 积 层 进行 计算 并 输出 : 


h = tf.nn.relul(tf.nn.conv2d (tf inputs,weight,strides=[1,1,1,1], 


padding='SAME') +bias) 


对 于 其 余 的 卷 积 层 进行 计算 并 输出 ， 其 中 的 输入 是 前 一 层 的 输出 : 


h = tf.nn.relu(tf.nn.conv2d(h, weight, strides=[l1, 1, 1, 1],padding= 'SAME') 


+ bias) 
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对 于 池 化 层 ， 计 算 如 下 : 


h = tf.nn.max pool(h, [1,2,2,1], [1,2,2,1],padding="'SAME') 


然后 ， 对 于 紧 跟 在 最 后 一 个 卷 积 层 / 池 化 层 之 后 找到 的 第 一 个 完全 连接 的 层 ， 我 们 将 给 出 如 下 
定义 的 输出 。 我 们 需要 将 来 自 [batch_size，height，width，channels] 的 最 后 一 个 卷 积 层 / 池 化 层 的 输 
入 重 塑 为 [batch_size，height * width * channels] 大 小 ， 因 为 接 下 来 就 是 一 个 完全 连接 层 : 


h shape = h.get shape().as list() 
h 
h 


tf.reshape(h, [h shape[0], h shape[1l] * h shape[2] * h shape[3]]) 
tf.nn.relu(ltf.matmul (h, weight) + bias) 


对 于 除 最 后 一 层 之 外 的 下 一 组 完全 连接 层 ， 我 们 得 到 如 下 输出 : 


h = tf.nn.relul(tf.matmul (h, weight) + bias) 


最 后 ， 对 于 最 后 一 个 完全 连接 层 , 我 们 不 进行 任何 类 型 的 激活 操作 。 这 将 是 我 们 提供 给 LSTM 
的 图 像 特征 表示 ， 它 是 一 个 1000 维 的 向 量 : 


out = tf.matmul (h,weight) + bias 

4. 提 取 图 像 的 向 量化 表示 

我 们 从 CNN 中 提取 的 最 重要 的 信息 是 图 像 的 特征 表示 。 对 于 图 像 的 特征 表示 ， 我 们 将 在 应 用 
softmax 预测 之 前 获得 最 后 一 层 的 网 络 输出 。 因 此 ， 对 应 于 单个 图 像 的 向 量 长 度 为 1 000: 


tf train logit prediction = inference cnn(train image batch, device) 
tf test logit prediction = inference cnn(test image batch, device) 


5. 使 用 VGG-16 预测 图 像 分 类 的 概率 
接 下 来 ， 我 们 将 定义 获取 图 像 特征 表示 所 需 的 操作 以 及 实际 的 softmax 预测 ， 以 确保 我 们 的 模 
型 在 实际 应 用 中 的 正确 性 。 我 们 将 为 训练 数据 和 测试 数据 定义 这 些 相关 操作 : 


tf train softmax prediction = tf.nn.softmax(tf train logit prediction) 


tf test softmax prediction = tf.nn.softmax (tf test logit prediction) 


现在 运行 这 些 操作 ， 看 看 它们 是 否 正常 工作 ， 如 图 9-12 所 示 。 
现在 来 看 ， 我 们 的 CNN 似乎 知道 它 在 做 什么 。 当 然 ， 也 存在 错误 分 类 的 样本 〈 例 如， 长 颈 鹿 
被 识别 为 美洲 驼 ) ， 但 大 多 数 情况 下 是 正确 的 。 


在 运行 前 面 已 定义 的 操作 以 获取 特征 向 量 和 预测 时 , 请 注意 batch_size 变量 。 增 加 此 值 将 


使 代码 快速 运行 。 但 是 ， 如 果 没 有 足够 大 的 内 存 (大 于 8 GB )， 就 可 能 导致 系统 前 溃 。 
如 果 你 没有 高 端的 计算 机 ， 建 议 将 此 值 保持 在 10 以 下 。 
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African elephant 
(Confidence: 0.60) 


warplane 
(Confidence: 0.61) 


racket 


(Confidence: 0.98) (Confidence: 0.58) 


cellular telephone 
{Confidence: 0.40) 


(contidenee 0.27) 


seashore 
(Confidence: 0.49) 


fire engine 
(Confidence: 0.29) 


llama 
(Confidence: 0.46) 


bookshop 
(Confidence: 0.31) 


图 9-12 利用 VGG 对 测试 图 像 进行 分 类 预测 


9.7.5 学 习 词 向 量 


本 小 节 讨 论 如 何 为 图 像 字幕 数据 集中 的 单词 执行 学 习 词 向 量 的 操作 。 首先, 我 们 对 字幕 进行 预 


处 理 : 

def preprocess_ caption (capt): 
capt = capt.replace('-',' ') 
capt = capt.replace(',','') 
capt = capt.replace('.','') 
capt = capt.replace('"','') 
capt = capt.replace('!','') 
capt = capt.replace(':','') 
capt = capt.replace('/','') 
capt = capt.replace('?','') 
capt = capt.replace(';','') 
capt = capt.replace('\' ',' ') 
capt = capt.replace('\n',' ') 
return capt.lower() 

例如 ， 请 考虑 以 下 句子 : 


A living room and dining room have two tables, couches, and multiple chairs. 


这 将 转换 为 以 下 内 容 : 


a living room and dining room have two tables couches and multiple chairs 


然后 使 用 连续 词 袋 (CBOW ) 模型 来 学 习 词 向 量 , 就 像 我 们 在 第 4 章 词 嵌入 学 习 词 向 量 中 所 做 
的 那样 。 在 学 习 词 向 量 时 , 我 们 需要 说 记 一 点 : 


词 向 量 的 维度 应 该 与 为 图 像 获得 的 特征 表示 的 维度 
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11.12.2 ”BERT 模型 结构 


这 里 根据 Jacob Devlin 等 人 的 论文 《BERT: Pre-training of Deep Bidirectional Transformers for 
Language Understanding》 进 行 模 型 简要 介绍 。 其 实 ，BERT 模型 沿袭 了 GPT 模型 的 结构 ， 采 用 
Transformer 的 编码 器 作为 主体 模型 结构 ， 也 就 是 论文 中 提 到 的 基于 Ashish Vaswani 等 人 (2017) 
的 《4ttention is all you need》 中 描述 的 原始 实现 的 Multi-layer Bidirectional Transformer 编码 器 ， 并 
在 tensor2tensor 库 中 进行 发 布 。 而 Transformer 则 据 弃 了 RNN 的 循环 式 网 络 结构 , 仅 是 基于 注意 力 
机 制 来 对 一 段 文 本 进行 建 模 。 由 于 现在 Transformer 的 使 用 变 得 无 处 不 在 ， 论 文中 的 实现 与 原始 实 
现 完全 相同 ， 因 此 这 里 将 省 略 对 模型 结构 的 详细 描述 。 

在 这 项 工作 中 ， 论 文 将 层 数 〈Transformer Blocks ) 表示 为 L， 将 隐藏 大 小 表示 为 H， 将 
Self-Attention Heads 的 数量 表示 为 A。 在 所 有 情况 下 ， 将 Feed-Forward/Filter 的 大 小 设置 为 4H， 
即 卫 = 768 时 为 3072，HH=1024 时 为 4096。 论 文 主要 给 出 了 以 下 两 种 模型 大 小 的 结果 。 


@ BERTBASE: L=12, H=768, A=12, Total Parameters=110M 
@ BERT LARGE: L=24, H=1024, A=16, Total Parameters=340M 


为 了 进行 比较 ， 论 文选 择 了 与 OpenAI GPT 具有 相同 的 模型 大 小 。 然 而 ， 重 要 的 是 BERT 
Transformer 使 用 了 双向 Self-Attention 〈 自 注意 力 ) 机 制 ， 而 GPT Transformer 则 使 用 受 限制 的 
Self-Attention 机 制 ， 其 中 每 个 Token〈 切 分 词 )》 只 能 处 理 其 左 侧 的 上 下 文 。 双 向 Transformer 通常 
被 称 为 “Transformer Encoder”， 而 左 侧 上 下 文 则 被 称 为 “Transformer Decoder”， 因 为 它 可 以 用 
于 文本 生成 。BERT、OpenAI GPT 和 ELMo 之 间 的 比较 如 图 11-28 所 示 。 


BERT (Ours) OpenAl GPT 
医 国 区 司 医 到 


Tm » I™ 


图 11-28 ” 预 训练 模型 架构 的 差异 


BERT 使 用 双向 Transformer; OpenAI GPT 使 用 从 左 到 右 的 Transformer; ELMo 使 用 经 过 独立 
训练 的 从 左 到 右 和 从 右 到 左 LSTM 的 串联 来 生成 下 游 任务 的 特征 。 三 个 模型 中 ， 只 有 BERT 表示 
在 所 有 层 中 共同 依赖 于 左右 上 下 文 。 

BERT 对 GPT 的 第 一 个 改进 就 是 引入 了 双向 的 语言 模型 任务 。 此 前 其 实 也 有 一 些 研究 在 语言 
模型 这 个 任务 上 使 用 了 双向 的 方法 , 例如 在 ELMo 中 是 通过 双向 的 两 层 RNN 结构 对 两 个 方向 进行 
建 模 ， 但 两 个 方向 的 损失 计算 是 相互 独立 的 。 而 BERT 的 作者 指出 : 这 种 两 个 方向 相互 独立 或 只 
有 单 层 的 双向 编码 可 能 没有 发 挥 出 最 好 的 效果 ， 我 们 不 仅 需 要 双向 编码 ， 还 需要 加 深 网 络 的 层 数 。 
但 加 深 双向 编码 网 络 却 会 引入 一 个 问题 ， 导 致 模型 最 终 可 以 间接 地 “窥探 ”到 需要 预测 的 词 。 这 个 

“ 宁 探 ”的 过 程 可 以 用 图 11-29 来 表示 。 
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图 11-29 模型 间接 “窥探 ”到 需要 预测 词 的 过 程 之 示意 图 


从 图 11-29 中 可 以 看 到 经 过 两 层 的 双向 操作 , 每 个 位 置 上 的 输出 已 经 带 有 原本 这 个 位 置 上 词 的 
信息 了 。 这 样 的 “窥探 ”会 导致 模型 预测 词 的 任务 变 得 失去 意义 ， 因 为 模型 已 经 看 到 每 个 位 置 上 是 
什么 词 了 。 

为 了 解决 这 个 问题 , 我 们 可 以 从 预 训练 的 目标 入 手 。 我 们 想 要 的 其 实 是 让 模型 学 会 某 个 词 适合 
出 现在 怎样 的 上 下 文 语 境 中 ; 反 过 来 说 ， 如果 给 定 了 某 个 上 下 文 语 境 ， 那 么 我 们 希望 模型 能 够 知道 
这 个 地 方 适合 填 入 怎样 的 词 。 从 这 一 点 出 发 ， 其 实 可 以 直接 去 掉 这 个 词 ， 只 让 模型 看 上 下 文 ， 然 后 
来 预测 这 个 词 , 但 这 样 做 会 丢掉 这 个 词 在 文本 中 的 位 置信 息 。 还 有 一 种 方式 是 在 这 个 词 的 位 置 上 随 
机 输入 某 一 个 词 ， 但 如 果 每 次 都 随机 输入， 就 可 能 会 让 模型 难以 收敛 。 

BERT 的 作者 提出 了 采用 MaskLM 的 方式 来 训练 语言 模型 。 通 俗 地 说 ， 就 是 在 输入 一 句 话 的 
时 候 ， 随 机 地 选 一 些 要 预测 的 词 ， 然 后 用 一 个 特殊 的 符号 来 代替 它们 。 尽 管 模型 最 终 还 是 会 看 到 所 
有 位 置 上 的 输入 信息 , 但 由 于 需要 预测 的 词 已 经 被 特殊 符号 代替 ,所 以 模型 无 法 事先 知道 这 些 位 置 
上 是 什么 词 ， 这 样 就 可 以 让 模型 根据 所 给 的 标签 去 学 习 这 些 地 方 该 填 的 词 了 。 

然而 这 里 还 有 一 个 问题 , 就 是 我 们 在 预 训练 过 程 中 所 使 用 的 这 个 特殊 符号 , 在 后 续 的 任务 中 是 
不 会 出 现 的 。 因此 , 为 了 与 后 续 任务 保持 一 致 ， 作 者 按 一 定 的 比例 在 需要 预测 的 词 位 置 上 输入 原 词 
或 某 个 随机 的 词 。 当 然 ， 由 于 一 次 输入 的 文本 序列 中 只 有 部 分 的 词 用 来 进行 训练 ， 因 此 BERT 在 
效率 上 会 低 于 普通 的 语言 模型 ， 作 者 也 指出 BERT 的 收敛 需要 更 多 的 训练 步 数 。 

BERT 另外 一 个 创新 是 , 在 双向 语言 模型 的 基础 上 额外 增加 了 一 个 句子 级 别 的 连续 性 预测 任务 。 
这 个 任务 的 目标 也 很 简单 ， 就 是 预测 输入 BERT 的 两 端 文 本 是 否 为 连续 的 文本 ， 作 者 指出 引入 这 
个 任务 可 以 更 好 地 让 模型 学 到 连续 的 文本 片段 之 间 的 关系 。 在 训练 的 时 候 , 输入 模型 的 第 二 个 片段 
会 以 50% 的 概率 从 全 部 文本 中 随机 选取 ， 剩 下 50% 的 概率 选取 第 一 个 片段 的 后 续 文本 。 


11.13 总结 


在 本 章 中 ,我 们 首先 详细 介绍 了 基于 规则 的 机 器 翻译 、 统 计 机 器 翻译 等 传统 的 机 器 翻译 的 情况 ， 
包括 基于 规则 的 机 器 翻译 和 统计 机 器 翻译 各 自 的 研究 背景 、 种 类 和 模型 原理 。 
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其 次 ， 我 们 详细 讨论 了 神经 网 络 机 器 翻译 (NMT) 。 在 该 部 分 对 神经 网 络 机 器 翻译 模型 的 架 
构 和 工作 机 制 做 了 详细 解读 , 并 通过 一 个 小 实例 进行 了 深入 闭 述 .我 们 讨论 了 这 些 系 统 的 基本 概念 ， 
并 将 模型 分 解 为 词 嵌 入 层 、 编 码 器 、 上 下 文 向 量 和 解码 器 .我 们 之 所 以 首先 介绍 了 词 嵌 入 层 的 好 处 ， 
是 因为 与 独 热 (One-Hot) 编码 向 量 相 比 , 它 提供 了 词 的 语义 表示 。 其 次 我 们 了 解 了 编码 器 的 目标 ， 
即 学 习 一 个 代表 源 语句 的 固定 长 度 的 向 量 。 接 下 来 ,学 习 了 固定 长 度 的 上 下 文 向 量 ， 再 用 它 来 初始 
化 解码 器 。 解码 器 负责 产生 源 语句 的 实际 翻译 。 然 后 我 们 讨论 了 神经 网 络 机 器 翻译 系统 中 的 训练 和 
推理 是 如 何 工 作 的 。 

接着 , 我 们 给 出 了 评估 机 器 翻译 系统 的 重要 指标 : BLEU 评分 。 这 里 涉及 BLEU 的 度量 、 BLEU 
的 调整 和 惩罚 因子 、BLEU 得 分 总 结 等 。 

然后 , 我 们 研究 了 神经 网 络 机 器 翻译 系统 的 实现 , 该 系统 将 句子 从 德语 翻译 成 英语 ， 以 此 理解 
神经 网 络 机 器 翻译 系统 的 内 部 机 制 。 在 这 里 ， 我 们 研究 了 使 用 基本 TensorFlow 操作 实现 的 神经 网 
络 机 器 翻译 系统 ， 因 为 与 使 用 TensorFlow 中 的 现成 库 ( 如 seq2seq) 相 比 ， 这 使 我 们 能 够 深入 了 解 
系统 的 逐步 执行 。 

最 后 ， 我 们 讨论 了 引爆 2018 年 的 重大 研究 发 现 ; BERT 模型 。 我 们 了 解 到 BERT 模型 是 第 一 
个 用 于 预 训练 自然 语言 处 理 (NLP) 任务 的 无 监督 、 深 度 双 向 的 系统 (Unsupervised，Deeply 
Bidirectional System) ， 且 该 模型 在 11 项 NLP 任务 中 夺 得 STOA 结果 ， 令 人 惊喜 。 在 这 里 ， 我 们 
知道 BERT 模型 是 经 过 改进 后 的 GPT 模型 ， 其 中 的 两 个 创新 之 处 是 : 采用 MaskLM 的 方式 来 训练 
语言 模型 ， 在 双向 语言 模型 的 基础 上 额外 增加 了 一 个 句子 级 别 的 连续 性 预测 任务 。 

在 下 一 章 中 ， 我 们 将 讨论 智能 问答 系统 。 


问答 (Question Answering，QA) 是 自然 语言 处 理 中 一 项 具有 挑战 性 的 任务 。 近 年 来 ， 随 着 深 
度 学 习 在 语义 和 句法 分 析 、 机 器 翻译 、 关 系 抽取 等 自然 语言 处 理 任务 上 取得 了 显著 的 成 功 , 利用 深 
度 学 习 来 完成 问答 任务 也 得 到 了 越 来 越 多 的 关注 ,本 章 将 简要 介绍 深度 学 习 方法 在 两 个 典型 问答 任 
务 上 的 最 新 进展 的 情况 。 〈1) 基于 知识 库 深度 学 习 的 问答 (KBQA) ， 主 要 采用 深度 神经 网 络 来 
理解 问题 的 含义 ， 并 尝试 将 其 转化 为 结构 化 查询 ， 或 者 直接 转化 为 分 布 式 语义 表示 。 (2) 机 器 理 
解 中 的 深度 学 习 (Machine Comprehension，MC ) 是 一 种 基于 新 型 神经 网 络 的 端 到 端 范式 ， 用 于 直 
接 计算 问题 、 答 案 和 给 定 段落 之 间 的 深层 语义 匹配 。 


12.1 概要 


从 简单 的 文档 检索 到 自然 语言 问答 〈QA) ， 网 络 搜索 正 处 于 深刻 变革 的 前 沿 中 。 它 需要 准确 
理解 用 户 在 自然 语言 问题 方面 的 含义 , 从 网 络 上 各 种 信息 中 提取 有 用 的 事实 , 并 选择 出 合理 的 答案 。 
与 其 他 自然 语言 处 理 (NLP) 任务 ， 如 词性 标注 、 解 析 和 机 器 翻译 类 似 ， 大 多 数 传统 的 QA 方法 都 
是 基于 符号 表示 的 。 在 这 样 的 范式 中 , 问题 和 答案 中 的 所 有 元 素 , 包括 单词 、 短 语 、 句 子 、 文 档 等 ， 
通常 都 是 借助 于 NLP 基本 模块 来 处 理 的 ， 然 后 转换 为 某 些 结构 化 或 非 结构 化 格式 ， 如 词 袋 、 解 析 
树 、 罗 辑 形式 等 。 在 给 定 的 文档 或 网 页 中 ， 计 算 问 题 和 候选 答案 之 间 语 义 的 相似 性 或 相关 性 ， 并 且 
具有 最 高 分 数 的 候选 项 便 是 最 终 答 案 。 尽 管 如 此 , 这 种 范式 的 弱点 在 于 所 谓 的 “语义 鸿沟 (Semantic 
Gap) ， 即 具有 相似 含义 的 文本 跨度 可 能 会 用 不 同 的 符号 表示 。 

在 神经 网 络 模型 中 , 文本 通常 表示 为 分 布 式 向 量 , 而 文本 跨度 之 间 的 精确 匹配 可 以 由 分 布 式 向 
量 之 间 的 运算 来 实现 。 这 样 传统 方法 中 的 语义 鸿沟 问题 就 可 以 在 一 定 程度 上 得 到 缓解 。 

此 外 ， 问 答 任务 中 还 有 几 个 分 支 ， 包 括 基于 检索 的 问答 (IRQA) 、 社 区 的 问答 (CQA) 、 基 
于 知识 库 的 问答 (KBQA) 和 机 器 理解 (MC) 的 问答 。 在 这 里 ， 我 们 主要 关注 基于 知识 库 的 问答 
(KBQA) 和 基于 机 器 理解 (MC) 的 问答 ， 因 为 这 两 个 问答 需要 对 文本 从 问题 到 文档 进行 更 多 的 
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语义 分 析 和 理解 。 另 外 ， 我 们 还 将 从 两 个 角度 讨论 KBQA 的 最 新 进展 ， 并 进一步 回顾 针对 机 器 理 
解 (MC) 的 深度 学 习 工作 等 。 


12.2 ”基于 知识 库 的 问答 


截至 目前 , 其 实 已 经 有 研究 人 员 在 扩展 新 的 神经 网 络 模型 方面 进行 了 许多 成 功 的 尝试 , 并 且 提 
高 了 知识 库 问答 系统 的 性 能 。 这 里 有 多 种 新 型 的 神经 网 络 组 件 或 架构 及 其 变 体 ， 如 CNN、RNN 
(LSTM、BLSTM) 、 注 意 力 机 制 和 记忆 网 络 ， 并且 已 经 在 任务 中 得 到 了 检验 。 这 些 工 作 内 容 可 以 
被 分 为 两 种 模式 ;信息 抽取 (Information Extraction，IE) 和 语义 分 析 (Semantic Parsing，SP) ， 
如 图 12-1 所 示 。 信 息 抽 取 模 式 通常 使 用 各 种 关系 提取 技术 从 知识 库 中 检索 一 组 候选 答案 ， 然 后 将 
这 些 候选 答案 与 压缩 特征 空间 中 的 问题 进行 比较 ;语义 分 析 模 式 则 是 借助 新 型 的 组 件 或 神经 网 络 结 
构 ， 从 句子 中 提取 出 正式 的 /符号 化 的 表示 或 结构 化 的 查询 。 


Natural Language Question Natural Language Question 


Anchor Semantic Parser 
( Topic Fy ) ( Meaning Representation ) 
Retrieve KB Graph Map 上 KB 
Candidate Answer  ) 人 svat Query  ) 
Ranking Query 本 KB 
Answer ) Answer 


(a) 信息 抽取 模式 框架 (b) 语义 分 析 模 式 框架 
图 12-1 


从 另 一 个 角度 来 看 ,我 们 可 以 将 有 关 利 用 深度 学 习 方 法 来 促进 基于 知识 库 的 问答 (KBQA) 开 
发 工作 分 为 两 类 : 在 传统 的 KBQA 框架 内 使 用 新 型 的 神经 网 络 模型 来 改进 特定 的 组 件 和 在 统一 的 
神经 网 络 架构 中 标准 化 工作 任务 。 前 一 种 观点 主要 侧重 于 利用 先进 的 神经 网 络 模型 来 改进 现 有 的 组 
件 ， 如 特征 提取 、 关 系 识别 、 语 义 匹 配 或 相似 度 计算 等 : 后 者 则 是 强调 利用 新 型 的 深度 学 习 框架 来 
使 自然 语言 的 问题 和 候选 答案 被 构建 在 同一 低 维 语义 空间 内 。 因 此 ， 该 KBQA 任务 可 以 转换 为 问 
题 的 向 量 和 该 空间 中 候选 答案 之 间 相 似 度 的 计算 问题 ， 通 常 以 信息 抽取 的 方式 展开 。 


12.2.1 信息 抽取 


我 们 在 使 用 深度 学 习 方 法 的 过 程 中 , 主要 是 侧重 于 寻找 更 好 的 方法 将 自然 语言 的 问题 和 来 自 知 
识 库 的 候选 答案 嵌入 同一 个 且 被 压缩 的 语义 空间 中 。 一 般 情况 下 , 这 些 工作 会 在 统一 的 神经 网 络 架 
构 中 以 “检索 -嵌入 -比较 ” (Retrieval-Embedding-Comparing) 流水 线 式 (有 时 也 称 为 管道 ) 的 形 
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式 对 解决 方案 进行 标准 化 。 
1. 基本 介绍 


信息 抽取 〈Information Extraction，IE) 是 把 文本 中 包含 的 信息 进行 结构 化 处 理 ， 变 成 表格 一 
样 的 组 织 形式 。 输入 信息 抽取 系统 的 是 原始 文本 , 输出 的 是 固定 格式 的 信息 点 。 信 息 点 首先 从 各 种 
各 样 的 文档 中 被 抽取 出 来 , 然后 以 统一 的 形式 集成 在 一 起 , 这 就 是 信息 抽取 的 主要 任务 。 信 息 以 统 
一 的 形式 集成 在 一 起 的 好 处 是 方便 检索 和 比较 。 信 息 抽取 技术 并 不 试图 全 面 理解 整 篇 文档 , 只 是 对 
文档 中 包含 相关 信息 的 部 分 进行 分 析 , 至 于 哪些 信息 是 相关 的 ,将 由 系统 设计 时 指定 的 范围 来 决定 。 

信息 抽取 技术 对 于 从 大 量 的 文档 中 抽取 需要 的 特定 事实 来 说 是 非常 有 用 的 , 互联 网 就 是 这 么 一 
个 文档 库 。 在 互联 网 上 ,同一 主题 的 信息 通常 分 散 存 放 在 不 同 的 网 站 上 ， 表现 形式 也 各 不 相同 ， 如 
果 能 将 这 些 信息 收集 在 一 起 ， 并 利用 结构 化 形式 存储 ， 那 将 是 非常 有 益 的 。 

由 于 互联 网 上 的 信息 载体 主要 是 文本 ,所 以 信息 抽取 技术 对 于 那些 把 互联 网 当成 知识 来 源 的 人 
来 说 是 至 关 重 要 的 。 信 息 抽取 系统 可 以 看 作 是 把 信息 从 不 同文 档 中 转换 成 数据 库 记 录 的 系统 , 成 功 
的 信息 抽取 系统 将 把 互联 网 变 成 巨大 的 数据 库 。 

虽然 信息 抽取 技术 是 近年 来 发 展 起 来 的 新 技术 领域 , 但 也 面临 着 许多 新 的 挑战 。 信 息 抽 取 原 来 
的 目标 是 从 自然 语言 文档 中 找到 特定 的 信息 , 是 自然 语言 处 理 领域 特别 有 用 的 一 个 子 领域 。 它 所 开 
发 的 信息 抽取 系统 既 能 处 理 含有 表格 信息 的 结构 化 文本 ， 又 能 处 理 自由 式 文本 〈 如 新 闻 报 道 ) 。 信 
息 抽取 系统 中 的 关键 组 成 部 分 是 一 系列 的 抽取 规则 或 模式 ,其 作用 是 确定 需要 抽取 的 信息 。 互 联网 
上 文本 信息 的 大 量 增加 导致 这 方面 的 研究 得 到 高 度 重视 。 

2. 向 量 表示 

Bordes 等 人 于 2014 年 率先 提出 了 信息 抽取 模式 的 方法 ， 他 们 没有 单独 将 类 别 、 实 体 引用 和 关 
系 模式 映射 到 知识 库 中 对 应 的 类 型 、 实 体 和 谓词 ， 而 是 提出 了 一 种 更 直接 的 方法 。 他 们 设计 了 一 个 
联合 嵌入 框架 来 学 习 结构 化 知识 库 中 的 单词 、 实 体 、 关 系 和 其 他 语义 项 的 向 量 表 示 ， 并 设法 将 自然 
语言 问题 映射 到 知识 库 中 的 子 图 ， 如 图 12-2 所 示 。 


Scoretq, 0) 
ES 
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“Who did Clooney marry in 19877" 
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图 12-2 向 量 表示 的 示意 图 
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当 自 然 语 言 问题 和 候选 子 图 用 低 维 向 量 表 示 时 , 可 以 很 容易 地 计算 出 问题 和 子 图 之 问 的 相似 性 。 
该 模型 需要 带 注释 的 问答 配对 作为 训练 数据 , 也 可 以 通过 简单 的 模式 和 多 任务 范式 自动 收集 更 多 的 
训练 实例 。 通 过 同时 优化 其 他 资源 或 相关 的 辅助 任务 ， 如 转述 任务 ,该 模型 则 在 确保 相似 的 话语 具 
有 更 高 的 相似 性 ， 从 而 减轻 客服 中 心 对 人 力 的 需求 。 

图 12-2 所 示 的 框架 同样 也 遵循 简单 明了 的 流水 线 式 《 有 时 也 叫 管 道 》 结 构 ， 即 检索 -嵌入 - 比 
较 ， 而 不 依赖 于 人 工 构造 的 特征 、 额 外 的 句法 分 析 或 传统 抽取 模型 所 采用 的 经 验 规则 那样 ， 并 在 基 
准 数据 集 上 实现 了 具有 竞争 力 的 性 能 。 

为 了 便于 实现 ， 首 先 用 词 袋 模式 来 表示 ， 然 后 经 过 一 个 压缩 过 程 ， 这 个 过 程 忽略 了 自然 语言 问 
题 中 的 句法 结构 。 类 似 的 方法 也 适用 于 候选 答案 ， 其 中 子 图 简单 地 表示 为 其 所 涉及 实体 和 关系 的 
Multi-Hot 形式 。 这 种 简化 的 方法 其 实 是 防止 模型 在 自然 语言 表示 或 知识 库 本 身 使 用 更 多 的 信息 来 
源 ， 例 如 问题 中 的 关系 短语 或 答案 类 型 指示 器 ， 或 者 知识 库 中 的 实体 谓词 一 致 性 。 

此 外 , 目前 神经 网 络 模型 的 处 理 方法 还 不 能 很 好 地 处 理 语义 的 复合 性 , 以 及 除了 词 袋 或 实体 袋 
关系 表示 之 外 的 各 种 约束 ， 如 “小 明 的 父亲 的 母亲 的 儿子 ”和 “小 明 的 母亲 的 父亲 的 儿子 ”。 而 在 
某 种 程度 上 ， 可 以 通过 对 问题 进行 更 深入 的 语法 分 析 ， 或 者 频繁 地 对 知识 库 进行 结构 挖掘 来 解决 。 


2. 使 用 CNN 谋 入 特征 


Yih 等 人 (2014) 提出 的 是 利用 卷 积 神经 网 络 (CNN) 来 讲解 决 单一 关系 问题 ， 这 与 Bordes 
等 人 在 词 袋 模型 里 处 理 所 有 问题 的 模式 是 不 同 的 。 在 Yih 等 人 的 文章 中 ， 实 际 上 是 使 用 基于 CNN 
的 语义 模型 (CNNSM) 构造 两 个 不 同 的 映射 模型 : 一 个 用 于 标识 问题 中 的 实体 ， 另 一 个 用 于 将 关 
系 映 射 到 知识 库 的 关系 。 这 里 需要 说 明 的 是 , 假设 目标 问题 只 包含 一 个 实体 和 一 个 关系 ,这 确实 占 
据 了 各 种 KBQA 《基于 知识 库 的 问答 ) 基准 数据 集 的 很 大 比例 ， 而 这 类 问题 的 结构 化 查询 相对 比 
较 简 单 ， 只 涉及 一 个 < 主语 、 谓 语 、 宾 语 > 三 元 组 。 因 此 ， 不 需要 一 个 结构 预测 过 程 来 恢复 多 个 实 
体 和 关系 之 间 固有 的 查询 结构 。 

其 实 这 里 的 关键 思想 与 Bordes 等 人 提出 的 思想 非常 类 似 ， 即 自然 语言 问题 中 表达 的 关系 模式 
和 结构 化 知识 库 中 的 关系 /谓词 可 以 通过 CNN 投射 到 相同 低 维度 的 语义 空间 中 。 同样 , 知识 库 中 的 
实体 表现 形式 与 问题 中 提 到 的 实体 相同 ， 并 且 可 以 由 CNN 捕获 到 。 因 此 ，CNNSM 可 以 提供 自然 
语言 问题 和 知识 库 中 的 候选 三 元 组 之 间 的 相似 性 ， 并 选择 得 分 最 高 的 一 个 作为 最 终 答 案 。 

这 种 解决 方案 得 益 于 卷 积 神经 网 络 模型 ， 其 优 于 简单 的 词 袋 模式 ， 并 且 在 一 定 程度 上 以 
Letter-Trigrams 向 量 作为 输入 来 处 理 词汇 表 外 “Out-Of-Vocabulary，OOV) 问题 。 但 是 ， 这 也 让 我 
们 想起 了 KBQA 任务 中 的 两 个 重要 问题 : 实体 链接 和 关系 识别 ， 它 们 本 身 都 具有 足够 的 挑战 性 ， 
并 且 需 要 足够 的 训练 数据 ， 即 “分 类 -实体 ”对 和 “自然 语言 模式 -知识 库 关 系 ” 对 来 训练 模型 。 特 
别 是 目前 大 型 知识 库 中 存在 大 量 的 实体 和 关系 ， 如 Freebase， 使 得 处 理 多 个 实体 和 关系 的 问题 变 得 
更 加 具有 挑战 性 。 

另 一 方面 ，Dong 等 人 (2015) 提出 使 用 CNN 对 问题 和 候选 答案 之 间 的 不 同类 型 特征 进行 编 
码 。 他 们 提出 利用 多 列 卷 积 神经 网 络 (Multicolumn Convolutional Neural Network，MCCNN) 模型 
来 捕捉 一 个 问题 的 不 同方 面 ， 并 通过 三 个 渠道 (答案 路 径 、 答 案 语 境 和 答案 类 型 ) 进一步 评分 一 对 
问答 。 
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与 简单 的 向 量 表示 (Bordes 等 ，2014) 相 比 ，MCCNN 使 用 CNN 抽取 不 同 的 特征 ， 这 些 特征 
可 以 显 式 地 捕获 问题 中 的 主题 实体 与 知识 库 上 的 候选 答案 之 间 的 路 径 以 及 期 望 的 答案 类 型 ,这 两 点 
在 评估 一 个 候选 答案 时 显得 尤为 重要 。 通过 向 神经 网 络 中 添加 所 需 的 列 , MCCNN 还 可 以 轻松 扩展 
更 多 类 型 的 功能 。 

对 于 基于 特征 的 模型 ， 实 体 链接 仍然 是 一 个 悬而未决 的 问题 。 应 答 路 径 的 编码 有 助 于 MCCNN 
在 某 种 程度 上 沿路 径 执行 浅 层 推理 ， 然 而 由 于 典型 的 检索 -嵌入 -比较 (Retrieval-Embedding 
-Comparing) 框架 的 性 质 ，MCCNN 仍然 无 法 找到 更 好 的 解决 方案 来 处 理 候选 答案 之 间 的 比较 。 


3. 利用 注意 力 机 制 谋 入 特征 


Hao 等 人 (2017 年 ) 采用 了 双向 RNN 模型 来 捕获 给 定 问题 的 语义 。 他 们 认为 ， 一 个 问题 应 该 
根据 不 同 答 案 不 同方 面 的 关注 点 〈 答 案 方面 可 以 是 答案 实体 本 身 、 答 案 类 型 、 答 案 语 境 等 ) 以 不 同 
的 方式 表示 。 以 “ 谁 是 百度 公司 董事 长 ? ”为 题 ， 并 将 其 候选 答案 之 一 “李彦宏 ”作为 一 个 例子 。 
在 处 理 答案 实体 “ 李 阅 宏 ”时 ， 问 题 中 的 “董事 长 “和 “百度 公司 ”两 个 词 更 加 集中 ， 问 题 表 征 
应 偏向 于 这 两 个 词 。 而 当面 对 答案 类 型 是 “公司 ”或 “董事 会 成 员 ” 时 ，“ 谁 ” 则 应 该 是 最 突出 的 
词 。 同 时， 有 些 问题 可 能 更 看 重 答案 类 型 而 不 是 其 他 方面 。 在 其 他 问题 中 , 答案 的 关系 可 能 是 我 们 
应 该 考虑 的 重要 信息 , 对 于 不 同 的 问题 和 答案 , 它 是 动态 和 灵活 的 。 显然, 这 需要 一 种 注意 力 机 制 ， 
它 揭示 了 问题 表征 与 相应 答案 方面 之 间 的 相互 影响 。 

在 处 理 答案 不 同方 面 (包括 答案 路 径 、 答 案 语 境 和 答案 类 型 ) 时 ，Hao 等 人 提出 了 一 种 基于 交 
叉 注意 力 的 神经 网 络 来 执行 KBQA ， 而 不 是 使 用 具有 不 同 参数 的 三 个 CNN 来 表示 问题 。 

交叉 注意 力 模型 代表 问题 和 答案 方面 之 间 的 相互 关注 ， 包 含 两 个 部 分 : 答案 -问题 注意 部 分 和 
问题 -答案 注意 力 部 分 ， 前 者 有 助 于 学 习 灵 活 、 充 分 的 问题 表示 ， 后 者 有 助 于 调整 问答 权重 值 。 最 
后 计算 问题 与 不 同方 面 的 每 个 对 应 候选 答案 之 问 的 相似 度 得 分 ， 并 根据 相应 的 问题 -答案 权重 值 将 
每 个 候选 项 的 最 终 得 分 组 合 在 一 起 ， 选 择 得 分 最 高 的 候选 项 作为 最 终 答案 。 

4. 利用 记忆 机 制 回答 问题 

记忆 网 络 是 一 种 新 型 的 学 习 框架 ， 它 是 围绕 一 种 可 以 在 特定 任务 中 读 取 和 修改 /附加 记忆 机 制 
而 设计 的 《Weston 等 人 ，2015) 。 在 记忆 网 络 范式 下 ， 基 于 知识 库 问 答 任务 的 研究 已 经 有 了 一 些 
尝试 ， 主 要 是 遵循 信息 抽取 模式 的 检索 比较 方式 。 

Bordes 等 人 于 2015 年 进行 了 第 一 次 尝试 ， 主 要 侧重 于 简单 问题 的 讨论 ， 问 题 可 以 用 一 个 < 主 
体 、 关 系 、 对 象 > (<subject、 relation、object>) 三 元 组 来 回答 。 在 输入 组 件 中 , 我 们 以 bag-of-symbols 

(符号 袋 ) 的 形式 读 取 结 构 化 的 知识 库 并 将 其 存储 在 记忆 中 ， 并 且 问 题 被 处 理 成 bag-of-ngrams 的 
形式 ,然后 在 输出 组 件 中 ,将 bag-of-ngrams 化 的 问题 与 记忆 中 的 条 目 进 行 比较 以 找到 候选 三 元 组 ， 
并 用 输入 的 问题 进行 求 值 (得 分 ) 。 其 中 ， 得 分 最 高 的 三 元 组 的 对 象 将 由 响应 组 件 提供 且 作 为 模型 
给 出 答案 。 这 应 该 是 KBQA 任务 中 记忆 网 络 的 一 种 简单 应 用 ， 实 际 上 显示 了 记忆 网 络 在 管理 大 量 
知识 库 (KB) 条 目 方面 的 潜力 , 甚至 在 管理 来 自 多 个 资源 的 大 量 知识 库 条 目 时 也 是 如 此 , 如 图 12-3 
所 示 。 
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图 12-3 键 - 值 (Key-Value) 记忆 网 络 的 示意 图 (Miller 等 ，2016) 


米 勒 等 人 Miller，2016) 通过 研究 记忆 机 制 中 各 种 形式 的 键 - 值 (Key-Value) 的 知识 库 进 一 
步 扩展 了 这 一 思想 ， 改 进 后 的 模型 还 允许 从 记忆 中 读 取 多 个 地 址 来 收集 线索 /上 下 文 ， 从 而 动态 更 
新 间 题 以 获得 最 终 答 案 。 键 - 值 (Key-Value) 设计 的 优点 是 使 记忆 机 制 更 加 灵活 地 存储 各 种 知识 ， 
从 知识 库 三 元 组 (主体 + 关系 作为 键 Key， 对 象 作为 值 Value) 到 文档 〈 句 子 或 单词 窗口 作为 键 或 
值 )， 它 支持 用 异 构 资源 来 回答 更 复杂 的 问题 。 


12.2.2 ”语义 分 析 模 式 


语义 分 析 的 思路 是 通过 对 自然 语言 进行 语义 上 的 分 析 , 转化 成 为 一 种 能 够 让 知识 库 “ 看 懂 ” 的 
语义 表示 ， 进 而 对 知识 库 中 的 知识 进行 推理 (Inference) 、 查 询 (Query) 得 出 最 终 的 答案 。 简 而 
言 之 ,语义 解析 要 做 的 事情 就 是 将 自然 语言 的 问题 转化 为 一 种 能 够 让 知识 库 “看 懂 ” 的 语义 表示 ， 
即 逻 辑 形式 (Logic Form) 。 

“检索 -嵌入 -比较 ”框架 其 实 是 受益 于 各 种 神经 网 络 组 件 来 捕获 问答 相似 度 的 ， 并 且 在 简单 的 
问题 中 表现 得 更 好 ， 其 中 的 实体 和 关系 位 于 知识 库 中 简单 化 的 子 图 中 。 但 是 ,它们 并 不 善于 解决 复 
杂 的 语义 组 合 ， 因 为 在 理解 问题 时 并 没有 明确 的 信息 抽取 机 制 来 捕 提 这 种 组 合 。 相 比 之 下 ，KBQA 
中 的 其 他 主流 工作 〈 语 义 分 析 模 式 模型 ) 在 尝试 正式 地 表示 问题 的 含义 ， 然 后 使 用 知识 库 进 行 实例 
化 以 构建 基于 知识 库 的 结构 化 查询 ， 从 而 可 以 显 式 地 捕获 复杂 的 查询 。 

因此 , 这 些 模 型 的 核心 组 件 是 从 自然 语言 问题 中 恢复 形式 意义 的 表示 ,如 逻辑 形式 或 结构 化 查 
询 ， 并 通过 将 表示 映射 到 知识 库 组 件 并 查询 知识 库 ， 从 而 在 知识 库 中 找到 答案 。 深 度 学 习 方 法 的 工 
作 主 要 是 为 了 改进 框架 的 某 些 组 件 。 

也 可 以 将 12.2.1 小 节 中 讨论 的 CNNSM 模型 (Yih 等 ,2014) 看 作 是 一 种 语义 分 析 模 式 的 方法 ， 
它 只 能 产生 一 个 <subject、predicate、objec 人 > 三 元 组 作为 查询 ， 其 中 CNN 用 于 执行 实体 链接 和 关系 
识别 ,但 不 适合 用 于 稍微 复杂 的 问题 ,如 涉及 多 个 实体 和 关系 ， 以 及 约束 限制 方面 。 主 要 是 因为 神 
经 网 络 组 件 只 负责 与 知识 库 组 件 (实体 或 关系 ) 之 间 的 映射 ， 而 没有 明确 的 机 制 来 识别 多 个 实体 或 
关系 之 间 的 内 在 结构 。 事 实 上 ， 在 传统 的 基于 语义 分 析 模型 中 ， 已 经 通过 PCCG、PCFG、 依 赖 结 
构 或 其 他 名 法、 语义 分 析 范 式 对 这 些 结构 进行 了 深入 研究 。 


372 | TensorFlow 与 自然 语言 处 理应 用 


1. STAGG : 搜索 和 剪 枝 时 的 语义 分 析 


除了 单一 关系 问题 ，Yih 等 人 〈2015) 建议 使 用 查询 图 的 方式 来 表示 问题 的 含义 ， 其 中 包含 4 
种 节点 : 基础 实体 (Grounded Entity， 标 准 实体 ) 、 存 在 变量 (Existential Variable) 、 入 变量 和 约 
束 / 函 数 。 在 这 里 ， 和 变量 是 非 标准 的 实体 ， 并且 有 望 成 为 最 终 的 答案 ; 存在 变量 可 以 指 代 (引用 ) 
中 间 节 点 ， 如 “小 明 的 父亲 的 母亲 ”中 的 “父亲 ”的 表达 ， 或 者 抽象 节点 ， 如 Freebase 中 的 复合 
值 类 型 (CVT) 节点 ， 并 且 约束 或 函数 被 设计 为 根据 某 些 数值 属性 〈 如 argmin) 过 滤 一 组 实体 。 
在 查询 图 中 ， 节 点 之 间 通 过 有 向 边 连接 ， 表 示 两 个 节点 之 间 的 关系 期 望 通过 知识 库 谓 词 进行 映射 ， 
如 图 12-4 所 示 。 


12-4 Yb 等 人 (2015) 提出 的 分 阶段 查询 图 生成 模型 (STAGG) 


然后 ， 任 务 变 成 如 何 将 一 个 自然 语言 问题 转换 成 这 样 的 查询 图 。Yih 等 人 (2015) 提出 了 一 个 
分 阶段 查询 图 生成 模型 (STAGG) ， 利 用 知识 库 从 头 逐 步 剪 枝 搜索 空间 ， 并 构建 结构 化 查询 。 

STAGG 的 关键 组 件 包括 主题 实体 链接 和 识别 核心 推理 链 ， 最 后 用 约束 和 函数 进行 扩充 ， 这 基 
本 上 是 一 个 逐步 搜索 的 解析 和 排序 过 程 。 这 里 核心 推理 链 捕获 主题 实体 和 lambda 变量 之 间 的 关系 ， 
并 为 查询 提供 主干 支撑 。Yih 等 人 (2015) 使 用 深度 卷 积 神经 网 络 模型 在 语义 上 匹配 一 个 问题 和 一 
个 谓词 序列 (长 度 为 2， 中 间 有 一 个 CVT 节点 ) 。 

尽管 STAGG 在 基准 数据 集 上 取得 了 成 功 ， 但 是 我 们 可 以 从 STAGG 的 设计 中 吸取 一 些 经 验 。 

主题 实体 : 第 一 步 , 找到 主题 实体 并 链接 到 知识 库 , 也 是 关键 的 一 步 。 STAGG 使 用 了 S-MART 
(Yang 和 Chang，2015) ， 这 是 一 种 短文 本 实体 链接 的 统计 模型 ， 它 对 后 续 步 骤 及 整体 性 能 都 起 
着 重要 作用 。 当 将 主题 实体 链接 更 改 为 Freebase API 时 ，STAGG 的 Fl 总 分 下 降 4.1%。 

识别 核心 推理 链 : 基本 上 这 是 一 个 关系 抽取 步骤 , 用 于 捕获 如 何 从 KB 图 上 的 主题 实体 开始 获 
取 和 变量， 通过 CNN 捕获 ， 类 似 于 Yih 等 人 2014 年 提出 的 CNNSM。 鉴 于 所 有 候选 关系 的 巨大 
空间 ，STAGG 仅 考虑 与 主题 实体 相关 的 那些 候选 项 ， 并 且 捕获 问题 如 何在 语义 上 与 主题 实体 周围 
的 KB 关系 序列 匹配 。 因 此 ， 识 别 核心 推理 链 的 这 一 过 程 成 为 匹配 和 排名 (Match-and-Rank) 的 步 
骤 ， 同 时 避免 了 大 规模 的 多 分 类 方式 。 

增加 约束 和 聚合 :STAGG 会 将 问题 中 的 其 他 实体 或 时 间 表 达 式 看 成 为 核心 推理 链 的 约束 节点 ， 
并 且 还 会 引入 某 些 函数 以 进一步 过 滤 答 案 ， 如 将 first、smallest 转换 为 arg min。 通 过 一 组 规则 ， 我 
们 将 看 到 KBQA 系统 会 引入 聚合 函数 作为 正式 表示 的 一 部 分 。 

理解 最 高 级 别 的 表达 方式 : 正如 Berant 和 Liang (2014) 、Zhang 等 〈2015) 中 所 讨论 的 那 
样 ， 在 问题 中 可 以 看 到 最 高 级 的 话语 〈 表 达 ) 。 大 多 数 KBQA 工作 都 采用 模板 或 规则 来 分 析 最 高 
级 的 表达 式 ， 只 需 从 arg min 或 arg max 中 进行 选择 即 可 (Berant 和 Liang，2014; Yih 等 , 2015) 。 
然而 ， 正 式 将 最 高 级 表达 式 分 析 作 为 针对 KB 的 结构 化 比较 结构 ， 将 有 助 于 KBQA 系统 更 好 地 处 
理 最 高 级 的 话语 ， 以 及 那些 具有 序数 约束 的 话语 。Zhang 等 人 (2015) 设计 了 一 个 神经 网 络 模型 来 
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学 习 最 高 级 别 话语 和 KB 关系 之 间 的 潜在 对 应 关系 ， 作 为 比较 结构 中 的 比较 维度 。 例 如 ， 从 the 
longest river 到 元 组 <river.length、descending、1>， 我 们 期 望 所 有 river 在 KB 谓词 riverlength 上 进 
行 比较 〈 按 降序 排序 ) ， 排 名 最 高 的 就 是 我 们 的 目标 。 

2 改善 关系 识别 


正如 语义 分 析 模 式 工作 中 〈Kwiatkowski 等 ，2013; Berant 等 ，2013; Berant 和 Liang，2014) 
所 讨论 的 那样 ， 从 问题 中 识别 KB 关系 /谓词 是 成 功 的 关键 ， 其 中 传统 的 基于 特征 的 模型 难以 捕获 
到 句子 与 KB 知识 库 ) 关系 之 间 的 不 匹配 以 及 自然 语言 话语 之 间 的 差异 。 其 实 ， 已 经 有 人 多 次 使 
用 CNN 或 RNN 模型 在 探索 词汇 或 句法 特征 的 关系 提取 中 尝试 应 用 了 深度 学 习 方 法 很 多 次 (Zeng 
等 ，2014; Liu 等 ，2015; Xu 等，2015) 。 

KBQA 中 的 关系 提取 组 件 旨 在 处 理 短 的 语 境 中 基于 KB 的 关系 , 其 中 有 多 达 数 千 个 候选 项 。 一 
种 可 能 的 解决 方案 是 通过 CNN 在 自然 语言 话语 和 KB 关系 之 间 执 行 语 义 匹 配 (Yih 等 ,2014 和 2015)， 
避免 对 数 百 种 关系 进行 直接 分 类 ， 如 图 12-5 所 示 。 


dobl 
aux 
nb SN pep pot 、 


[Who] does [michael keaton] play in [cars] 


relationf1 relation42 


[Whole does [michael keaton]e, play in car: Whol]e, does michael keaton play in [cars]e。 
es channel1 ~ channel 2 
! a naotd) (contextual) 、、 


OOOOOOOD 
ER 
film film stamng film performance character ] 
fil actorfilm_filmperformance_film 1 


: om )— 
‘michael keaton [ii 
| Ca 


Select ?x where { 


m.0ljSws film.actor.film..film.performance.character 


图 12-5 多 通道 卷 积 神经 网 络 (MCCNN) 模型 示意 图 
Xu 等 人 (2016) 提出 了 一 种 多 通道 卷 积 神经 网 络 (MCCNN) 模型 ， 从 词法 和 句法 两 方面 学 

习 紧 凑 性 、 稳健 的 关系 表示 , 这 些 方法 更 适合 开放 域 的 KBQA 场景 . 因为 在 一 个 开放 域 的 KB 中 ， 

通常 有 上 千 个 关系 , 传统 的 基于 特征 的 模型 不 可 避免 地 会 遇 到 数据 稀疏 问题 和 对 未 知 单词 泛 化 能 
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差 的 问题 。 

3. 神经 符号 机 器 

还 有 另 一 个 有 趣 的 语义 分 析 模 式 的 工作 , 试图 结合 神经 网 络 和 符号 推理 的 优点 来 改善 问答 效果 。 
Liang 等 人 于 2017 年 引入 神经 符号 机 器 (Neural Symbolic Machine，NSM) ， 其 配备 了 一 个 神经 网 
络 组 件 ， 负 责 从 自然 语言 表示 映射 到 可 执行 的 代码 ， 以 及 一 个 符号 组 件 来 执行 代码 ， 以 剪 枝 搜索 空 
间 来 找到 答案 。 

具体 来 说 ， 神 经 网 络 组 件 基 本 上 是 一 个 序列 到 序列 模型 ， 它 维护 一 个 关键 变量 存储 器 
(Key-Variable Memory) ， 在 生成 程序 序列 时 处 理 中 间 结 果 。 但 是 ， 神 经 网 络 组 件 和 符号 解释 器 
的 混合 设计 会 使 整个 框架 难以 训练 ， 然 后 要 将 其 转换 为 一 个 强化 学 习 问 题 来 解决 。 


12.2.3 ”信息 抽取 与 语义 分 析 小 结 


综 上 所 述 , 其 实 很 容易 发 现 我 们 不 需要 对 信息 抽取 方法 和 语义 分 析 方法 进行 明确 的 区 分 。 这 两 
种 观点 确实 各 有 优势 ， 信 息 抽取 〈 正 ) 方法 更 多 地 利用 了 新 型 神经 网 络 模型 和 架构 的 优点 ， 以 便 在 
压缩 的 语义 空间 中 更 好 地 表示 问题 和 候选 答案 , 并 且 更 容易 在 模型 结构 中 合并 各 种 特征 表示 。 另 一 
方面 ， 深 度 学 习 为 语义 分 析 〈SP) 模型 提供 了 更 精确 的 关系 或 约束 识别 /映射 ， 并 支持 更 精确 /复杂 
的 含义 表示 和 推导 。 

事实 上 , 之 前 很 多 的 成 果 都 可 以 被 认为 是 具有 这 两 方面 的 特性 , 尤其 是 那些 针对 简单 问题 或 受 
益 于 这 两 种 模式 的 成 果 。 例 如 ，STAGG 遵循 传统 的 语义 分 析 模 式 ， 从 一 个 问题 构造 结构 化 查询 ， 
其 分 级 - 剪 棱 有 助 于 剪 枝 搜索 空间 ， 从 而 获得 更 好 的 查询 结构 和 整体 性 能 。 我 们 认为 ， 一 些 具有 信 
息 抽取 和 语义 分 析 两 种 模式 优点 的 新 范式 ， 如 记忆 网 络 模型 和 神经 符号 框架 ， 具 有 足够 的 灵活 性 ， 
可 以 适用 于 更 复杂 的 问题 。 


12.2.4 挑战 


随 着 基于 知识 库 问答 系统 的 发 展 , 已 经 出 现 了 几 个 最 受 关注 或 讨论 的 问题 , 尤其 是 在 使 用 深度 
学 习 模型 的 背景 下 。 

1. 组 合 性 

传统 基于 语义 分 析 的 KBQA 〈 基 于 知识 库 的 问答 ) 工作 通常 依赖 组 合 分 类 语法 〈CCG) 或 概 
率 从 问题 中 推导 出 其 意义 表示 (Cai 和 Yates，2013; Kwiatkowski 等 ，2013 ) ， 如 果 不 考虑 这 些 句 
法 结构 ， 如 信息 抽取 模式 的 方法 ， 那 么 在 统一 模型 中 进行 显 式 捕获 是 相对 困难 的 。 因此， 许多 现 有 
的 工作 成果) 依赖 于 手工 定义 的 规则 或 模板 来 处 理 组 合 性 (Yb 等 ，2015) 。 

2. 自然 语言 与 知识 库 之 间 的 差距 

我 们 已 经 讨论 过 , 当 尝 试 检 索 候选 答案 或 将 自然 语言 话语 与 知识 库 项 目 相 匹配 时 , 实体 链接 和 
关系 抽取 是 两 个 主要 障碍 。 其 主要 原因 是 自然 语言 与 知识 库 的 不 匹配 , 包括 语言 方面 上 下 文 的 限制 
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或 省 略 、 子 词汇 的 构 词 性 ， 甚 至 是 知识 库 设 计 的 缺陷 。 目 前 ， 相 关 研究 人 员 已 经 提出 了 各 种 神经 网 
络 模型 来 改进 关系 匹配 或 抽取 方法 ， 但 对 实体 链接 任务 的 关注 却 远 远 不 够 ， 而 实体 链接 任务 又 是 
KBQA 系统 的 基本 步骤 。 


3. 训练 数据 


关于 训练 数据 方面 , 其 实 训练 数据 一 直 是 各 种 机 器 学 习 方法 中 存在 的 问题 , 尤其 是 神经 网 络 模 
4， 它 比 传统 方法 需要 更 多 的 训练 数据 。 在 问答 场景 中 ， 收 集 问答 配对 的 成 本 是 非常 昂贵 的 ， 更 不 
用 说 任何 好 的 注释 ， 如 逻辑 形式 、 结 构 化 查询 ， 甚 至 实体 和 关系 注释 。 可 能 的 解决 方案 包括 使 用 问 
答 配 对 作为 间接 监督 来 收集 伪 标 签 (Yih 等 ，2015; Xu 等 ，2016) ， 或 者 使 用 噪声 标签 或 模板 自 
动 收集 训练 数据 (Miller 等 ，2016; Bordes 等 ，2014a) 。 

KBQA (基于 知识 库 的 问答 ) 是 一 项 具有 挑战 性 的 任务 ， 它 需要 许多 NLP 或 藤 技术 ， 如 词汇 
分 析 、 句 法 分 析 、 信 息 抽取 、 实 体 链 接 、 推 理 等 ， 而 深度 学 习 的 最 新 进展 为 提高 KBQA 提供 了 有 
用 的 工具 或 新 的 框架 , 这些 在 早期 是 大 家 公认 的 。 我们 相信 ， 神 经 网 络 建 模 与 问答 的 深度 融合 将 会 
给 这 一 领域 带 来 更 多 的 机 过。 


12.3 ”机 器 理解 中 的 深度 学 习 


12.3.1 任务 描述 


机 器 理解 (Machine Comprehension，MC) 是 近年 来 在 自然 语言 处 理 和 人 工 智能 领域 得 到 广泛 
应 用 的 一 种 新 的 应 用 。 机 器 理解 具备 测试 机 器 阅读 、 处 理 和 理解 文本 的 能 力 。 机 器 理解 遵循 传统 的 
QA (问答 ) 设置 ， 但 仍 存在 一 些 差 异 。 

(1) 在 传统 的 QA 中 ， 对 于 给 定 的 问题 ， 答 案 的 来 源 可 能 各 种 各 样 ， 比 较 繁 杂 ， 如 基于 知识 
库 的 问答 (KBQA) 、Web 搜索 结果 ， 甚 至 一 些 问答 平台 〈 也 称 为 社区 QA) 。 而 在 机 器 理解 中 ， 
上 下 文 的 知识 则 仅 限 于 给 定 的 单个 文档 。 

(2) 与 传统 的 QA 相 比 ， 特 别 是 对 于 IRQA 和 KBQA， 机 器 理解 主要 关注 那些 无 法 直接 回答 
的 问题 ， 需 要 根据 给 定 文档 中 的 多 个 实体 或 事件 进行 推理 。 另 外 ， 机 器 理解 中 需要 推理 能 力 。 

(3) 与 传统 的 QA 相 比 ， 机 器 理解 中 的 答案 类 型 更 加 多 样 化 ， 从 单个 单词 到 多 个 句子 不 等 。 
此 外 ,， 机 器 理解 的 问题 形式 也 是 多 种 多 样 的 ， 如 多 项 选择 题 (前 面 提 供 的 答案 候选 项 ) 和 完 形 填空 
式 问题 (没有 提供 候选 项 ， 需 要 从 系统 中 生成 答案 ) 。 

1. 数据 集 

MCTest: 机 器 理解 的 任务 始 于 自然 语言 处 理 (NLP) 社区 。2013 年 ， 微 软 研究 人 员 提 出 了 
MCTest (Richardson 等 ，2013) 数据 集 来 评估 机 器 的 理解 能 力 。 在 MCTest 中 ， 每 个 文档 〈 故 事 ) 
都 与 4 个 问题 相关 联 。 对 于 每 个 问题 , 提供 4 个 候选 答案 , 并 且 系 统 需要 选择 正确 的 答案 。MCTest 
的 一 个 例子 如 图 12-6 所 示 。 


376 | TensorFlow 与 自然 语言 处 理应 用 


Alyssa got to the beach after a long trip. She's from 
Charlotte. She traveled from Atlanta. She’ s now in 
Miami. She went to Miami to visit some friends 


The girls went to a restaurant for dinner. The 


restaurant had a special on catfish. Alyssa enjoyed 
the restaurant's special. Ellen ordered a salad. 
Kristin had soup. Rachel had a steak-. 


1: one: Why did Alyssa go to Miami? 


~c) visit friends 

D) laying our 

2: multiple: What did Alyssa eat at the restaurant? 
A) steak 


C) salad 
~“D) catfish 


图 12-6 MCTest 数据 中 故事 和 问题 的 示例 


显然 ， MCTest 是 一 个 标准 的 阅读 理解 数据 集 ， 其 中 的 故事 是 虚构 的 ， 一 些 问题 可 以 从 几 个 句 
子 〈 标 记 为 多 个 ) 中 进行 回答 。 作 者 将 数据 集 分 为 两 个 子 集 ， 包 括 MC160 和 MC500， 分 别 包含 
160 和 500 个 故事 ， 但 是 此 数据 集 的 规模 太 小 ， 有 时 仅 用 作 测 试 设置 。 近 年 来 ， 许 多 研究 者 通常 借 
助 外 部 语言 工具 来 提取 特征 ， 然 后 在 此 基础 上 进行 推理 。 从 MCTest 开始 ， 已 经 发 布 了 几 个 机 器 理 
解数 据 集 。 在 这 里 ， 我 们 主要 介绍 以 下 几 个 标准 的 数据 资源 。 

bAbi: bAbi (Weston 等 ，2015) 是 一 个 机 器 理解 数据 集 ， 根 据 作者 的 描述 是 人 工 智 能 完全 问 
题 〈 自 然 语 言 处 理 被 认为 是 人 工 智能 完全 问题 (AI Complete) ， 也 就 是 说 ， 如 果 自 然 语 言 处 理 实 
现 了 ， 人 工 智能 也 就 实现 了 ) 。 总 的 来 说 ，bAbi 包含 20 个 子 任务 ， 其 中 每 个 子 任务 需要 不 同 的 应 
答 技巧 。 一 些 子 任务 示例 如 图 12-7 所 示 。 


John is in the playground. John is in the playground. 
Bob is in the office. Daniel picks up the milk. 
Where is John? playground lsJohn in the classroom? no 
Does Daniel have the milk? yes 
single supporting fact 


Yes or No questions 


John is in the playground. 


Bob is in the office. The office is north of the bedroom. 

John picked up the football. The bedroom is north of the bathroom. 
Bob went to the kitchen. What is north of the bedroom? office 
Where is the football? playground What is the bedroom north of? bathroom 


i ? 
Where was Bob before the kitchen? office Subject vs. Object 


two supporting facts 


图 12-7 bAbi 数据 集中 部 分 子 任务 


由 于 该 数据 集 被 划分 为 不 同 的 类 别 , 因此 不 同 子 任务 上 的 性 能 可 能 会 暴露 出 一 个 模型 在 不 同 问 
题 类 型 上 的 优 缺 点 。 整 个 数据 集 是 由 几 个 人 工 设计 的 规则 自动 合成 和 自动 生成 的 ,虽然 规 则 应 该 是 
无 限制 的 , 但 实际 上 生成 规则 仅 基 于 不 超过 100 个 单词 。 因 此 ， 此 数据 集中 的 某 些 问题 或 文档 是 重 
复 的 。 由 于 bAbi 是 由 规则 自动 合成 的 ， 因 此 被 利用 的 算法 或 系统 更 可 能 接近 所 使 用 的 生成 规则 。 

SQuAD: SQuAD (Rajpurkar 等 ，2016) 是 斯 坦 福 问答 数据 集 ， 是 最 近 发 布 的 一 个 人 工 创建 的 
大 型 机 器 理解 数据 集 。 该 数据 集 包 含 近 100 000 个 “文档 -问题 ”配对 ， 这 些 文档 来 源 于 维基 百科 
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页 面 , 然后 注释 者 根据 这 些 文档 提出 一 些 问题 , 并 在 文档 中 标注 出 相应 的 答案 . 请 注意 , 在 SQuAD 
中 没有 提供 候选 答案 。 系 统 可 以 通过 预测 答案 在 文档 的 开始 和 结束 位 置 来 “生成 ”答案 。 这 里 的 问 
题 示 例如 图 12-8 所 示 。 


In meteorology, precipitation is any product of the condensation 
of atmospheric water vapor that falls under gravity. The main 
forms of precipitation include drizzle, rain, sleet, snow, graupel 
and hail... Precipitation forms as smaller droplets coalesce via 
collision with other rain drops or ice crystals within a cloud. Short, 
intense periods of rain in scattered locations are called “showers”. 


Where do water droplets collide with ice crystols to form precipitation? 


12-8 ”SQuAD 数据 集中 问题 示例 
此 外 ， 最 近 还 发 布 了 几 个 与 SQuAD 规模 和 形式 都 相似 的 机 器 理解 数据 集 ， 如 NewsQA 7 和 


Marco 。 

完 形 填空 式 机 器 理解 数据 集 : 除了 机 器 理解 中 提 到 的 QA 形式 之 外 , 完 形 填空 式 查 询 (Taylor， 

1953 ) 也 是 其 中 的 基本 形式 之 一 。 这 种 类 型 具有 阅读 理解 的 大 部 分 特征 , 但 答案 只 是 文档 中 的 一 个 
单词 。 实 际 上 ， 最 近 提 出 了 许多 这 类 的 数据 集 ， 如 CNN/Daily Mail (Hermann 等 ，2015) 和 CBT 
(Hl 等 ，2015) 。 在 CNN/Daily Mail 中 ， 作 者 提出 了 一 种 从 两 个 新 闻 语料库 中 自动 生成 完 形 填 
空 的 方法 , 每 条 新 闻 报道 都 有 一 个 标题 或 摘要 。 如 果 作者 删除 标题 中 的 一 个 具体 名 词 ， 系 统 就 需要 
根据 给 定 的 文档 来 填充 这 个 占 位 符 。 为 了 避免 语言 建 模 或 超出 文本 理解 范围 的 现实 世界 知识 的 影响 ， 
作者 对 文档 和 查询 中 涉及 的 所 有 实体 进行 了 匿名 化 处 理 。 在 CBT 中 , 每 个 文档 包含 20 个 连续 的 句 
子 ， 第 21 句 中 有 一 个 词 被 移 去 了 。 为 了 避免 在 阅读 理解 中 使 用 基于 语言 建 模 的 方法 ， 答 案 仅 限于 
专 有 名 词 。 图 12-9 给 出 了 CNN/Daily Mail 的 一 个 例子 。 


[CONTEXT: 
( @entity4 ) if you feel a ripple in the force today ,it may be the news that the 
official @entity6 is getting its first gay character . according to the sci-fi website 
@entity9 , the upcoming novel " @entity11 "will feature a capable but flawed 
@entity13 official named @entity14 who " also happens to be a lesbian ." 
comics and books approved by @entity6 franchise owner @entity22 — according| 
to @entity24 , editor of " @entity6 " books at @entity28 imprint @entity26 . 


QUESTION: 

characters in " @placeholder " movies have gradually become more diverse 
ANSWER: 

@entity6 


图 12-9 CNN/Daily Mail 数据 集 的 示例 
2. 实现 机 器 理解 的 知识 需求 
机 器 理解 是 一 项 综合 性 的 推理 任务 ， 需 要 对 自然 语言 有 深入 地 理解 。 在 心理 学 中 , 理解 来 自 于 
词语 之 间 的 相互 作用 ， 这 些 词语 可 以 触发 给 定 段落 、 文 档 内 部 和 外 部 的 知识 。 它 是 一 个 创造 性 的 、 
多 方面 的 过 程 ， 依 赖 于 4 种 语言 技能 : 语音 学 、 语 法 学 、 语 义学 和 语 用 学 。 对 于 机 器 理解 问题 ， 要 
实现 真正 的 理解 甚至 还 需要 理解 多 个 子 句 ( 从 句 ) 之 间 的 关系 。 例 如 , 要 理解 事件 之 问 的 时 间 关 系 ， 
隐 式 地 需要 识别 连接 词 (when, as, since，...) 、 时 间 索 引 词 (moring, evening，...) 、 时 态 和 方 
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位 (Aspect， 笔 者 认为 也 可 以 是 角度 ) (went, is going, will go，...) 等 表达 式 。 此 外 ， 还 需要 其 他 
推理 技巧 ， 例 如 数学 运算 需要 回答 与 算术 问题 有 关 的 问题 ， 如 “汤姆 有 4 支 铝 笔 给 了 同 桌 2 支 ， 
他 还 剩 几 支 铅笔 ? ”, 需要 回答 这 类 问题 的 系统 应 该 推断 出 等 式 “4-2=2”。Sugawara 等 人 (2017) 

提出 了 机 器 理解 需要 的 10 个 技能 ， 如 图 12-10 所 示 。 


Skills Descriptions or examples 


List/Enumeration Tracking, retaining, and list/enumeration of entities or states 
Mathematical operations Four arithmetic operations and geometric comprehension 
Coreference resolution Detection and resolution of coreference 
Logical reasoning Induction, deduction, conditional statement, and quantifier 
Analogy Trope in figures of speech, e.g., metaphor 
Spatiotemporal relations Spatial and/or temporal relations of events 
Causal relations Relations of events expressed by why, because, the reason for, and so on 
Commonsense reasoning Taxonomic knowledge, qualitative knowledge, action and event changes 
Schematic/Rhetorical clause Coordination or subordination of clauses in a sentence 
relations 
Special sentence structure Scheme in figures of speech, constructions, and punctuation marks in a sentence 


12-10 机 器 理解 需要 的 技能 


一 般 来 说 ， 机 器 理解 涉及 处 理 许 多 语言 模式 〈(Patterm) ， 如 词汇 、 句 法 或 高 级 语 篇 、 释 义 。 为 
了 对 这 些 特 征 进行 建 模 ， 根 据 方法 论 的 观点 ， 可 以 将 当前 的 方法 分 为 两 部 分 : 基于 特征 工程 的 方法 
和 基于 深度 学 习 的 方法 ， 接 下 来 我 们 对 此 将 做 一 些 曾 述 。 


12.3.2 ”基于 特征 工程 的 机 器 理解 方法 


目前 , 现 有 的 基于 特征 工程 的 方法 通常 是 将 文本 理解 任务 建 模 为 计算 给 定 问题 与 文档 或 段落 之 
间 语 义 相似 性 的 任务 。 这 些 方法 试图 通过 基于 POS 标记 的 特征 、 依 存 分 析 特 征 、 共 指 、 引 用 等 浅 
层 语言 学 特征 对 句子 和 文档 的 语义 进行 建 模 。 基 于 不 同 的 特征 ， 可 以 捕获 不 同类 型 的 语义 ， 如 词汇 
层次 语义 、 语 篇 《有 时 也 叫 话语 ) 的 语义 等 。 

1. 词汇 匹配 

词汇 匹配 是 机 器 理解 任务 中 一 种 简单 而 有 效 的 方法 这 种 方法 通常 采用 一 种 基于 滑动 窗口 的 算 
法 ， 通 过 为 每 个 与 问题 文本 配对 的 答案 形成 词 袋 向 量 ， 并 对 这 些 候 选 答 案 进行 排名 (Rank) 。 然 
后 根据 每 个 候选 项 与 故事 文本 的 重 登 程度 对 它们 进行 评分 , 并 计算 出 得 分 最 高 的 候选 项 具体 来 说 ， 
这 个 算法 在 整个 故事 文本 上 滑动 一 个 窗口 , 该 窗口 的 大 小 等 于 问答 配对 中 的 单词 个 数 。 故事 文本 窗 
口 和 问答 配对 之 间 的 最 高 重 登 分 数 将 被 作为 答案 的 对 应 分 数 。 

史密斯 等 人 〈2015) 通过 多 次 取舍 ， 并 对 获得 的 分 数 求 和 来 对 每 个 答案 进行 评分 。 有 具体 而 言 ， 
它们 从 窗口 大 小 2 开始 并 将 其 增加 到 30 〈 即 30 个 切 分 词 ) ， 然 后 将 这 些 得 分 与 整个 故事 中 “问题 
-答案 ”配对 的 总 匹配 数量 结合 起 来 。 正 如 他 们 宣称 的 那样 ， 这 种 解决 方案 可 以 让 系统 捕捉 到 故事 
中 的 远 距 离 关 系 。MCTest 上 原 有 的 和 增强 的 滑动 窗口 词法 匹配 方法 的 比较 结果 如 表 12-1 所 示 。 


表 12-1 MCTest 上 词汇 匹配 方法 的 表现 情况 


滑动 窗口 Sliding window(%) 


69.43 


增强 型 滑动 窗口 Enhanced sliding window(%) 


72.65 


63.01 63.57 


2. 话语 ( Discourse ， 语 篇 ) 关系 


问答 一 个 问题 所 需 的 相关 信息 可 以 分 布 在 多 个 句子 中 ,理解 这 些 句 子 之 间 的 语义 关系 对 于 找到 
正确 答案 是 很 重要 的 。 以 图 12-11 为 例 ， 为 了 回答 “为 什么 莎 莉 穿 上 她 的 鞋子 ”的 问题 ,我 们 需要 
推断 出 “她 穿 上 鞋子 ”和 “她 外 出 散步 ”之 间 存 在 因果 关系 。 

Sally liked going outside. She put on her shoes. She went outside to 

walk. [...] Missy the cat meowed to Sally. Sally waved to Missy the cat 


[...] Sally hears her name. ”Sally, Sally, come home”, Sallys mom calls 
out. Sally runs home to her Mom. Sally liked going outside. 


Why did Sally put on her shoes? 


A) To wave to Missy the cat 

B) To hear her name 

C) Because she wanted to go outside 
D) To come home 


图 12-11 一 个 需要 多 句 推理 的 问题 示例 
实际 上 , 一 些 先前 的 研究 成 果 已 经 证 明了 话语 关系 在 一 些 领域 应 用 中 存在 的 价值 , 如 问答 领域 
(Jansen 等 ，2014) 。Narasimhan 和 Barzilay 于 2015 年 提出 了 三 种 模型 ， 将 话语 关系 纳入 了 机 器 
理解 系统 中 。 
将 文档 中 的 句子 表示 为 z， 问 题 表示 为 q， 答 案 表示 为 a。 
模型 1: 
P(a,z1q;)=P(z|q;)P(a|z,q;) (12.1) 
在 公式 (12.1) 中 , 我 们 将 联合 概率 定义 为 两 个 分 布 (有 的 称 为 两 个 分 量 概 率 ) 的 乘积 。 其 中 ， 
第 一 分 布 是 问题 中 给 定 段 落 里 句子 的 条 件 分 布 , 这 是 为 了 帮助 识别 出 回答 问题 所 需 的 句子 ; 第 二 个 
分 布 是 通过 给 定 问题 q 和 句子 z 来 对 选择 答案 的 条 件 概率 进行 建 模 。 我 们 可 以 使 用 指数 族 来 得 到 这 
些 分 量 概率 ， 即 P(z 19) x exp(9191(42) 和 P(z | a,q) x exp(9292(4.97z))， 其 中 gp 是 特征 向 量 ，98 代表 
关联 权重 值 (Associate Weight) 。 对 文档 中 所 有 人 句子 z 求 和 ， 可 以 得 到 具体 答案 的 概率 aj: 


Plaj 1 9)) = ZnP(aj,zn 19)) (12.2) 
通过 这 种 方式 可 以 将 目标 似 然 函数 〈Likelihood Objective Function) 写成 : 
L1(0) = log Yj PnP (Qj,zn | 9)) (12.3) 
模型 2 
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上 述 模型 只 能 一 次 考虑 一 个 支持 句子 ( 即 z) ， 当 然 ， 也 可 以 把 它 扩展 到 多 个 句子 。 我 们 对 给 
定 的 问题 使 用 多 个 相关 句子 ， 在 这 种 情况 下 ， 联 合 模型 的 定义 如 下 : 


P(azuzz19) = P(z 19)P(zz 121.9)P(a 1z1,22,9) (12.4) 


给 定 问题 g， 我 们 首先 预测 与 概率 P (zi| q》 相 关 的 第 一 个 句子 支持 句 ， 然 后 给 出 q 和 z， 
接着 推理 出 第 二 个 句子 支持 句 z,， 最 后 答案 a 便 是 模型 预测 出 的 结果 。 


模型 3: 


该 模型 试图 直接 指定 问题 之 间 的 话语 关系 , 然后 利用 这 种 关系 对 文档 中 的 其 他 相关 句子 进行 推 
理 。 具 体 来 说 ， 模 型 3 添加 了 一 个 隐藏 变量 rER 来 表示 关系 类 型 ， 它 集成 了 将 问题 类 型 与 关系 类 
型 联系 在 一 起 的 特性 ， 还 利用 关系 类 型 来 计算 句子 之 间 的 词汇 和 句法 相似 性 。 

关系 集 R 由 以 下 关系 组 成 。 

(1) 因果 关系 : 事件 的 原因 或 事实 的 原因 。 

(2) 时 态 : 事件 的 时 间 顺 序 。 

(3) 说 明 : 主要 处 理 how-type 的 问题 。 

(4) 其 他 : 上 述 三 种 关系 以 外 的 关系 (包括 非 关系 non-relation) 。 

现在 ， 我 们 对 等 式 〈12.4) 中 的 联合 概率 进行 修改 ， 加 入 关系 类 型 r， 结 果 如 下 : 


Pl(a,r,z21,2219) = P(zs | q)P(r 19)P(zz | 21,7,q9)P(a | 21,22,7,9) (12.5) 


其 中 ， 新 增 的 分 量 “Component) P(rlq) 是 取决 于 问题 的 关系 类 型 了 的 条 件 概率 。 因 此 ， 该 模 
型 可 以 学 习 诸如 对 应 于 因果 关系 的 why-questions。 下 面 我 们 给 出 这 三 种 模型 的 结果 情况 , 如 表 12-2 
所 示 。 


表 12-2 MCTest 上 三 种 模型 的 准确 性 情况 


| sngeeo [moo [oo |sngeey [veo ja 


| Model 2 


Model 3 


其 中 ，Single 是 指 只 需要 一 个 支持 句子 就 能 回答 的 问题 ， Multi 是 指 需要 多 个 句子 才能 回答 的 
问题 。 

3. 蕴涵 答案 ( Answer-Entailing ) 结构 

以 前 的 一 些 NLP 研究 成 果 得 益 于 学 习 两 个 文本 片段 之 间 的 潜在 结构 。 例 如 ， 在 识别 文本 蕴涵 
(RTE) 时 ， 可 以 通过 它们 之 间 的 某 些 潜在 对 齐 从 其 前 提 中 推断 出 该 假设 。 在 机 器 理解 中 ， 我 们 还 
可 以 将 这 种 列 涵 〈Entailing) 结构 信息 纳入 其 中 。 在 图 12-6 所 示 的 例子 中 ， 为 了 回答 第 二 个 问题 ， 
我 们 可 以 使 用 一 些 句 法 规则 将 问题 和 一 个 候选 答案 转换 成 语句 。 例 如 ， 候 选 答案 之 一 是 鲍鱼 
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(catfish) ， 我 们 将 其 与 相关 查询 组 合成 一 个 陈述 语句 : Alyssa 在 餐厅 吃 铃 鱼 〈catfish) 。 把 这 个 
陈述 作为 一 个 假设 ， 文 档 作 为 前 提 ， 我 们 可 以 推断 出 这 个 列 涵 〈Entailment) 的 概率 。 此 时 ， 我 们 
可 以 给 出 该 例 推理 过 程 的 示意 图 ， 如 图 12-12 所 示 。 


Question: Answer: 


What did Alyssa eat at the restaurant ? catfish 


i 


Statement; Alyssa eat catfish at the restaurant 


Document: ... The restaurant had a special on catfish .… Alyssa enjoyed the restaurant's special... 


图 12-12 MCTest 里 一 个 蕴涵 答案 结构 的 示例 图 


这 里 我 们 考虑 的 蕴涵 答案 结构 可 以 将 文本 中 的 多 个 句子 与 假设 对 齐 , 并 且 对 齐 文 本 中 的 句子 并 
不 限于 在 文本 中 连续 出 现 。 为 了 实现 这 种 不 连续 的 对 齐 ，Sachan 等 人 2015) 利用 了 文档 结构 ， 
尤其 是 他 们 借助 于 修辞 结构 理论 , 可 以 捕捉 到 事件 或 实体 在 句子 之 问 的 共 指 联系 。 他 们 使 用 洪 在 结 
构 SVM (LSSVM) 专门 训练 了 一 种 最 大 边际 方式 (Max-Margin Fashion) ， 其 中 蕴涵 答案 的 结构 
是 潜在 的 。MC500 上 这 种 蕴涵 答案 模型 的 实验 结果 如 表 12-3 所 示 。 


表 12-3 MC500 上 蕴涵 答案 模型 的 准确 率 


G16s 6799 6183 


4. 基于 特征 工程 方法 所 面临 的 挑战 

基于 特征 工程 的 方法 是 处 理 机 器 理解 问题 的 一 种 有 效 而 明确 的 方法 ,它们 通常 利用 几 种 语言 特 
征 来 建 模 对 给 定 文档 和 问题 之 间 的 语义 关系 进行 建 模 , 然后 根据 这 些 特 征 进行 推理 , 该 过 程 清晰 且 
易于 理解 该 方法 中 出 现 的 问题 ， 但 是 这 些 语言 特征 有 时 需要 通过 经 验 或 启发 式 实验 来 获得 。 另 外 ， 
它们 严重 依赖 于 独立 的 语言 工具 ， 如 词性 标注 、 语 法 分 析 器 等 ， 这 可 能 会 给 系统 带 来 噪声 。 因 此 ， 
特征 工程 方法 通常 以 MCTest 等 机 器 理解 数据 为 研究 对 象 ， 而 对 于 一 些 大 规模 的 机 器 理解 数据 集 ， 
如 SQuAD 和 bAbi, 现 有 的 基于 特征 工程 的 方法 很 难 从 文本 中 进行 设计 并 提取 出 有 效 的 特征 。 近年 
来 , 随 着 深度 学 习 在 计算 机 视觉 和 语音 识别 方面 取得 的 巨大 成 功 , 越 来 越 多 的 研究 人 员 开 始 关 注 基 
于 深度 学 习 的 机 器 理解 技术 。 


12.3.3 ”机 器 理解 中 的 深度 学 习 方 法 


对 于 机 器 理解 任务 , 我 们 将 介绍 几 种 流行 的 基于 不 同 数据 集 的 深度 学 习 方 法 。 现在 给 定 一 个 文 
档 d 和 一 个 问题 g， 对 选择 答案 a 的 概率 情况 可 以 进行 如 下 建 模 : 


P(al|d,q) « exp(W(a)g(d,q)) (12.6) 
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其 中 ，W(a) 表 示 管 案 候 选项 a 的 嵌入 ，g(d.9) 表 示 给 定 问题 q 下 文档 d 的 嵌入 。 关 键 的 部 分 是 
计算 函数 g(d,q), 可 以 应 用 若干 深度 神经 网 络 , 如 RNN、LSTM 和 记忆 网 络 (Weston 等 , 201Sb) 。 


1. 基于 LSTM 的 编码 器 


长 短期 记忆 网 络 (LSTM) 已 被 证 明 能 够 有 效 地 将 序列 数据 建 模 为 向 量 .因此 , 为 了 对 函数 g(d,q) 
进行 建 模 ，Hermann 等 人 〈2015) 将 相关 文档 一 次 性 输入 到 基于 LSTM 的 编码 器 中 。 问 题 q 也 在 
分 隔 符 之 后 被 提供 给 该 编码 器 。 这 样 给 定 文档 d 和 问题 q 的 配对 可 以 是 一 个 很 长 的 单 序列 ， 如 图 


12-13 所 示 。 
一 上 日 日 “日 “日 “日 “日 \ 
-日 -上 日 目 日- 卓 -日 / 
q 


d 
12-13 给 定 文档 4 和 问题 q 的 配对 可 以 是 一 个 很 长 的 单 序列 

2. 双向 注意 力 编码 器 

因为 单 向 LSTM 很 难 在 长 距离 上 传播 依赖 关系 ， 所 以 信息 在 从 一 个 组 件 到 另 一 个 组 件 的 传输 
过 程 中 会 慢 慢 衰减 ， 进 而 使 得 文档 的 语义 不 能 被 准确 地 编码 。 因此 , 越 来 越 多 的 研究 人 员 采 用 双向 
LSTM 模型 对 序列 数据 进行 编码 。 另 外 , 文档 d 中 并 非 所 有 的 句子 或 上 下 文 都 与 给 定 的 问题 aq 有关 
联 。 例 如， 这 里 有 一 个 文档 d， 其 内 容 是 “迈克 尔 。 乔 丹 在 1993-94 赛季 开始 之 前 突然 从 芝加哥 公 
牛 队 退 役 , 去 追求 自己 的 棒球 职业 生涯 ”。 当 问题 q 是 “迈克 尔 。 乔 丹 何 时 从 NBA 退役 的 ? ”时 ， 
文档 d 中 的 关注 点 应 该 是 “在 1993-94 赛季 开始 之 前 ”。 当 问题 q 是 “迈克 尔 乔丹 从 NBA 退役 后 
参加 了 哪 项 运动 ? ”时 , 文档 d 中 的 关注 点 应 该 是 “追求 棒球 生涯 ”。 也 就 是 说 ， 在 处 理 不 同 的 问 
题 时 , 我 们 应 该 对 文档 d 中 不 同 部 分 给 予 不 同 的 关注 。 因 此 , 将 注意 力 机 制 引入 深度 神经 网 络 也 是 
很 自然 的 事情 。Chen 等 人 2016) 提出 了 一 种 具有 注意 力 机 制 的 双向 编码 模型 (BiDEA) ， 该 模 
型 在 CNN/Daily Mail 数据 集 上 取得 了 良好 的 性 能 。 

关于 该 模型 的 结构 其 实 是 非常 直观 的 ， 其 预测 答案 的 过 程 主要 包括 以 下 三 个 步骤 。 


(1) 编码 : 在 所 有 词 被 映射 到 d 维 向 量 之 后 , 段落 p(d) 和 查询 q 可 以 被 分 别 表示 为 pu pz …,Ppm 
和 qugz .qi。 因 此 ， 段 落 p 的 上 下 文 信息 可 以 通过 下 面 的 公式 计算 得 到 。 
二 > 一 一 一 
hi 一 LSTM(hi_i, pi), i seogln 
向 =LSTM(iN pi =m,...,1 


Ar 一 一 
Pi = concat(h;, h;). 
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同时 ， 问 题 可 以 以 相同 的 方式 由 另 一 个 LSTM 层 嵌 入 到 q (单个 向 量 ) 中 。 
(2) 注意 力 : pi 中 的 所 有 文本 信息 可 以 通过 以 下 方式 组 合 进 输出 向 量 0 中 。 


ai = sof tmaxiq™ Wst, 


业 三 > ai Pi 
在 上 述 等 式 中 ，Ws e RW*) 用 于 测量 问题 q 与 段落 pi 中 单词 之 间 的 相似 性 。 
(3) 预测 ， 预测 答案 a 的 计算 方法 如 下 。 
a = argmax(aepnE) Wa 0 
其 中 ，E 是 嵌入 矩阵 ，Wi 是 输出 0O 和 候选 词 a 之 间 的 测量 矩阵 。 
虽然 上 述 模型 的 计算 非常 简单 ， 但 是 在 数据 集 CNN/Daily Mail 上 却 获 得 了 非常 好 的 性 能 表现 
(实验 结果 如 表 12-4 所 示 ) 。 根 据 Chen 等 人 (2016) 的 分 析 ， 其 提出 的 模型 的 有 效 性 是 由 于 : @ 


CNN/Daily Mail 的 推理 水 平 仍然 很 简单 ， 可 以 用 一 个 简单 的 模型 来 处 理 ; @ 各 类 模型 在 CNN/Daily 
Mail 上 已 经 达到 了 性 能 上 限 ， 甚 至 可 以 通过 信息 检索 系统 对 该 语料库 很 好 地 做 处 理 。 


表 12-4 BiDEA 等 模型 在 CNN/Daily mail 上 的 实验 结果 


Daily mail 


Attentive reader (Hermann 等 ，2015) 
MemNN (Sukhbaatar 等 ，2015) 

AS reader (Hermann 等 ，2015) 
Stanford AR (Chen 等 ，2016) 

DER network (Kobayashi 等 ，2016) 


Iterative attention (Sordoni 等 ，2016) 


EpiReader (Trischler 等 ，2016) 


GAReader (Dhingra 等 ，2016) 
AoA reader (Cui 等 ，2017) 


ReasoNet (Shen 等 ，2017) 


BiDAF (Seo 等 ，2016) 


BiDEA (Chen 等 ，2016) 72.4 72.4 76.9 75.8 


此 外 ,为 了 以 不 同 颗粒 度 表示 上 下 文 并 实现 查询 感知 的 上 下 文 表示 ，Seo 等 人 〈2016) 采用 多 
级 递 阶 过 程 提出 了 用 于 机 器 理解 任务 的 双向 注意 力 网 络 (BiDAF) 。 
如 图 12-14 所 示 ， 模 型 主要 由 以 下 6 层 组 成 。 
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字符 嵌入 层 : 字符 级 别 的 CNN， 可 以 将 单词 中 的 字符 映射 到 连续 向 量 。 

词 谈 入 层 : 预先 训练 的 词 向 量 短 阵 。 

短语 嵌入 层 : 双向 LSTM 层 ， 可 以 捕获 单词 的 上 下 文 信息 。 

注意 力 层 : 相似 性 矩阵 S， 测 量 来 自 两 个 方向 的 上 下 文 和 查询 词 之 间 的 相似 性 ， 即 上 下 文 
到 查询 和 查询 到 上 下 文 。 

@ 。 建 模 层 : 包含 所 有 单词 上 下 文 信息 的 两 层 双 向 LSTM。 

@ 输出 层 : 两 个 逻辑 回归 模型 ， 分别 捕获 起 始 索 引 和 结束 索引 。 


Output Layer Dense+ | LSTM+ 
Softmax Softmax 


2-layer LSTM Encoder 


Query2Context and 


Modeling Layer 


Attention Flow Layer 
We Context2Query Attention 


Haden State Seqvence Haden Siate Seqverwe 
Phrase Embedding Layer 
Word Embedding Layer 一 ~ 
CharEmbedding Layer 站 国 加 


12-14 ”双向 注意 力 模型 图 


如 表 12-5 所 示 ，SQUAD 上 的 实验 结果 表明 ，BiDAE 的 方法 带 来 了 性 能 的 提高 ， 这 可 能 是 由 
于 BiDAF 在 层级 中 具有 发 现 支持 证 据 的 开始 点 和 结束 点 的 能 力 所 引 起 的 。 


表 12-5 BiDAF 等 模型 在 SQuAD 测试 集 上 的 实验 结 


Logistic regression baseline (Rajpurkar 等 ，2016) 


Dynamic chunk reader (Yu 等 ，2016) 


Fine-grained gating (Yang 等 ，2016) 


Match LSTM (Wang 和 Jiang, 2016) 77.0 


Multi-perspective matching (Wang 等 ，2016) 到 过 


Dynamic coattention networks (Xiong 等 ，2016) 80.4 


R-Net (Wang 等 ，2017) 79.7 


BiDAF (Seo 等 ，2016) 81.1 


第 12 章 智能 问答 系统 | 385 


3. 记忆 网 络 ( Memory Network ) 


Weston 等 人 于 2015 年 提出 了 记忆 网 络 ， 用 于 解决 序列 神经 网 络 中 信息 的 衰减 问题 。 它 还 可 以 
用 推理 组 件 和 长 期 记忆 组 件 〈 实 际 上 是 一 个 矩阵 或 张 量 ， 它 的 名 字 就 是 从 这 里 来 的 ) 进行 推理 。 总 


的 来 说 ， 


它 包括 以 下 4 个 主要 组 成 部 分 。 


I (输入 特征 映射 ) 将 输入 向 量 转换 为 内 部 特征 表示 。 

G ( 泛 化 ) 根据 新 的 输入 更 新 现 有 记忆 。 

O (输出 特征 映射 ) 根据 新 的 输入 和 当前 记忆 状态 计算 新 的 输出 。 
及 (响应 ) 将 输出 转换 为 所 需要 的 响应 格式 。 


图 12-15 给 出 了 MemNN (Memory Network) 的 示意 图 。 记 忆 网 络 的 一 种 重要 形式 是 端 到 端 记 
忆 网 络 ， 我 们 将 其 缩写 为 MemN2N。MemN2N 的 一 个 优点 是 可 以 以 端 到 端的 方式 进行 训练 ， 这 意 
味 着 其 需要 较 少 的 监督 信息 ， 并 且 更 普遍 地 适用 于 真实 场景 。 以 下 等 式 分 别 是 I、G、O 和 及 中 的 
计算 情况 : 


Ipi = Softmax(ur,mi) ,其 中 mm i=Axi (xi 是 输入 句子 的 谈 入 向 量 ) ; u = Bq (q 是 输入 
查询 ) 。 

G 在 MemN2N 中 ， 记 忆 尚 未 被 更 新 。 

Oo = Zipici， 其 中 ci = Cxi。 

Ra = Softmax(W(o + u)). 


另外 ， 通 过 以 下 方式 很 容易 将 网 络 层 插 入 到 MEMN2NS 中 。 


第 (k+1) 层 的 可 以 计算 为 ut+D = uk + ok。 
每 层 都 有 自己 的 AK 和 CK.。 
预测 可 以 通过 8 = Softmax(WuGe+D) 来 计算 。 


Answer a 


Output 


Question q 


图 12-15 用 于 bAbI 任务 的 记忆 网 络 示意 图 
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MemN2N 最 初 应 用 于 bAbI 任务 中 的 20 个 任务 。 最 佳 的 MemN2N 性 能 接近 于 监督 模型 , 位 置 
编码 (PE) 表示 优 于 词 袋 (BoW) 模型 ， 线 性 (LS) 训练 有 助 于 避免 局 部 极 小 值 ， 联 合 训练 有 助 
于 完成 所 有 任务 。 

除了 记忆 神经 网 络 , 值得 注意 的 是 ，G 中 的 计算 实际 上 是 一 种 注意 力 机 制 。 而 记忆 网 络 是 第 一 
个 将 外 部 知识 保存 在 指定 矩阵 中 的 模型 , 它 对 自然 语言 处 理 的 各 种 深层 模型 中 的 记忆 机 制 的 发 展 有 
着 重要 影响 。 


12.4 利用 TensorFlow 实现 问答 任务 


问答 (QA) 系统 是 一 个 旨 在 为 回答 自然 语言 提出 的 问题 而 设计 的 系统 。 一 些 QA 系统 从 诸如 
文本 或 图 像 之 类 的 信息 源 中 获取 信息 以 回答 具体 的 问题 。 这 些 依赖 “信息 来 源 ” 的 系统 可 以 分 为 两 
个 主要 子 类 别 : 开放 领域 , 它 需 要 回答 的 问题 几乎 可 以 是 里 面 的 任何 选项 ,不 限于 特定 领域 ; 封闭 
领域 , 它 涉及 的 问题 具有 一 些 特定 的 限制 , 因为 它们 是 与 一 些 预定 义 的 信息 源 相 关 (如 提供 的 上 下 
文 或 类 似 于 医学 等 特定 领域 ) 。 

我 们 将 创建 一 个 基于 神经 网 络 的 QA 系统 ， 并 使 用 封闭 领域 的 信息 来 源 。 为 了 做 到 这 一 点 , 我 
们 使 用 Ankit Kumar 等 人 在 其 论文 《4sk Me Anything: Dynamic Memory Networks for Natural 
Language Processing》 中 介绍 的 动态 记忆 网 络 (Dynamic Memory Network, DMN) 的 简化 版 本 ( 读 
者 也 可 以 自行 查阅 ， 笔 者 在 https://arxiv.org/abs/1506.07285 上 获取 到 该 文 ) 。 


12.4.1 bAbl 数据 集 


对 于 这 个 项 目 ， 我 们 使 用 Facebook 创建 的 bAbI 数据 集 ， 与 所 有 QA 数据 集 一 样 ， 此 数据 集 包含 
了 我 们 需要 的 所 有 问题 信息 。bAbI 数据 集中 的 所 有 问题 都 有 一 个 与 之 相关 的 上 下 文 ， 这 是 一 个 句子 序 
列 ， 以 便 能 够 保证 回答 问题 时 存 有 所 必需 的 详细 信息 。 此 外 ， 数 据 集 还 为 每 个 问题 提供 了 正确 答案 。 

根据 回答 问题 所 需 的 方法 ，bAbI 数据 集中 的 问题 被 划分 为 20 个 不 同 的 子 任务 。 每 个 子 任务 都 
有 自己 的 一 套 训练 问题 集 和 一 套 单独 的 测试 问题 集 , 这 些 子 任务 测试 各 种 标准 的 自然 语言 处 理 能 力 ， 
包括 时 间 推 理 和 归纳 逻辑 。 为 了 更 好 地 了 解 这 一 点 , 我 们 来 看 一 个 QA 系统 将 要 回答 问题 的 具体 示 
例 ， 如 图 12-16 所 示 。 


Context 


Fred picked up the apple there. Bill travelled to the kitchen. Bill got the milk there. Jeff went to the kitchen. 
Bill passed the milk to Jeff. Jeff handed the milk to Bill. 


Question Answer 


Who did Jeff give the milk to? Bill 


图 12-16 ”bAbI 数据 集 示 例 图 (图 片 来 源 : Steven Hewitt) 
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上 图 中 灰色 部 分 为 上 下 文 〈 或 语 境 ) ， 无 背景 颜色 的 为 问题 及 其 对 应 答案 (斜体 为 答案 ) 。 

此 任务 测试 神经 网 络 对 于 这 三 个 对 象 之 间 内 在 关系 所 涉及 相关 运算 或 操作 的 理解 .从 语法 上 讲 ， 
该 任务 将 测试 系统 是 否 能 够 区 分 主语 、 直 接 宾 语 和 间接 宾语 。 在 本 例 中 ,问题 询问 的 是 最 后 一 句 中 
的 间接 宾语 一 一 谁 是 那个 从 Je 他 手 里 接收 牛奶 的 人 。 神 经 网 络 必须 对 第 五 句 中 所 涉及 的 对 象 做 出 精 
准 区 分 ， 其 中 B 记 是 主语 ，Jeff 是 间接 宾语 ， 而 在 第 六 句 中 ，Jeff 则 是 主语 。 当 然 ， 我 们 的 神经 网 
络 并 没有 收 到 任何 关于 主语 或 宾语 是 什么 的 明确 训练 , 它 必须 从 训练 数据 的 示例 中 推断 出 这 种 合理 
的 理解 。 

系统 必须 解决 的 另 一 个 小 问题 是 理解 在 整个 数据 集中 使 用 的 各 种 同义词 , 如 Je 全 把 牛奶 “ 递 给 
(handed) ”Bil, 但 是 Je 全 也 可 以 同样 容易 地 “给 (gave) ”或 “ 交 给 (passed) ”给 BiL。 不过， 
在 这 点 上 神经 网 络 也 不 必 从 头 开始 , 因为 它 可 以 从 词 向 量 那里 得 到 一 些 帮 助 。 由 于 神经 网 络 中 存在 
大 量 的 词 向 量 , 这 些 词 向 量 可 以 给 出 对 应 词 的 定义 及 其 与 其 他 词 之 间 关 系 的 信息 , 而 相似 词 具 有 相 
似 的 向 量化 表示 ,这 就 意味 着 神经 网 络 可 以 将 它们 视 为 几乎 相同 的 词 。 对 于 词 向 量化 , 我 们 将 使 用 
Stanford 的 全 局 词 向 量 表示 (GloVe) 。 

许多 任务 都 有 一 个 限制 , 那 就 是 强制 上 下 文 包 含 用 于 回答 问题 的 确切 文字 , 如 在 我 们 的 示例 中 
就 可 以 在 上 下 文 找到 答案 “B 进 ”。 我 们 可 以 将 这 一 限制 当 作 优势 ， 因 为 可 以 在 上 下 文中 搜索 与 最 
终结 果 最 接近 的 词 。 


12.4.2 分析 GloVe 并 处 理 未 知 令 牌 


这 里 我 们 给 出 一 个 sentence2sequence, 它 是 一 个 根据 GloVe 定义 的 映射 并 将 字符 串 转换 为 矩阵 
的 函数 。 该 函数 将 字符 串 切 分 为 多 个 令 牌 (Token， 这 个 过 程 叫 Tokenization， 即 切 分 词 或 词 条 ) ， 
这 些 比较 小 的 字符 串 相当 于 标点 符号 、 单词 或 单词 的 一 部 分 。 例 如 , 把 “Bill traveled to the kitchen.” 
切 分 为 6 个 令 牌 ， 前 5 个 令 牌 对 应 于 单词 ， 最 后 一 个 令 牌 对 应 于 表示 句 末 的 “.”。 每 个 令 牌 都 被 
单独 地 向 量化 ， 从 而 产生 对 应 于 每 个 句子 的 向 量 列表 ， 如 图 12-17 所 示 。 


Vectorization 


05 O00 La 
-1 02 0.9 


“to” 


“the” 


0.7 


[= 


“Bill traveled to the kitchen” oD 


-16 ~ 


“kitchen” “1 


0 


图 12-17 将 句子 转换 为 多 个 向 量 的 过 程 (图片 来 源 : Steven Hewitt) 
在 bAbI 的 任务 中 ， 系 统 会 遇 到 一 些 GloVe 单词 向 量化 中 没有 的 单词 ， 为 了 让 神经 网 络 能 够 处 
理 这 些 未 知 的 词 条 ， 我 们 需要 为 这 些 单 词 维护 一 个 的 向 量化 状态 。 通 常 的 做 法 是 用 单个 <UNK> 向 
量 替换 所 有 未 知 令 牌 , 但 这 不 总 是 有 效 的 。 相反, 我 们 可 以 使 用 随机 化 方法 来 为 每 个 未 知 令 牌 创建 
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一 个 新 的 向 量 。 

当 第 一 次 遇 到 一 个 新 的 未 知 令 牌 时 , 我 们 简单 地 从 原始 GloVe 向 量化 的 分 布 (近似 高 斯 分 布 》 
中 获取 一 个 新 的 词 向 量 ， 并 将 该 向 量 添 加 到 GloVe 词 映射 上 。 为 了 收集 分 布 超 参 数 ， 可 以 使 用 
Numpy 中 的 函数 来 自动 计算 方差 和 平均 值 。 


# 反 序 列 化 EloVe 向 量 
glove wordmap = {} 
with open(glove vectors file, "r", encoding="utf8") as glove: 
for line in glove: 
name, Vector = tuple(line.split("", 1)) 


glove wordmap[name] = np.fromstring(vector, sep="") 


wvecs = [] 

for item in glove wordmap.items(): 
wvecs.append (item[1]) 

s = np.vstack (wvecs) 


# 收集 分 布 超 参 数 

Vv= np.varl(s,0) 

m= np.mean(s,0) 

RS = np.random.RandomState () 


# 而 每 当 我 们 需要 时 ，fil1_unk 会 提供 一 个 新 的 词 向 量 


def fill unk(unk): 
global glove wordmap 
glove wordmap[unk] = RS.multivariate normal (m,np.diag(v)) 


return glove wordmap[unk] 


12.4.3 已 知 或 未 知 的 数据 部 分 


其 实 bAbI 任务 中 的 词汇 量 是 有 限 的 ， 这 就 需要 神经 网 络 学 好 单词 之 间 的 关系 ， 即 使 不 知道 某 
些 单词 的 含义 ， 为 了 加 快 学 习 速度 ， 我 们 也 应 该 尽 可 能 地 选择 具有 内 在 意义 的 向 量 。 为 此 ， 我 们 使 
用 贪 焚 搜索 方法 来 查找 存在 于 斯 坦 福 GLoVe 词 向 量 数据 集中 的 单词 ， 如 果 该 单词 不 存在 ， 则 用 一 
个 未 知 的 、 随 机 创建 的 词 向 量 表示 来 蔡 换 整 个 单词 。 

在 这 个 词 向 量化 模型 下 ， 我 们 可 以 定义 一 个 新 的 sentence2sequence。 


def sentence2sequence (Sentence) : 


- 将 输入 段落 转换 为 (m, d) 矩阵 , 其 中 n 是 句子 中 的 词 条 数量 , d 是 每 个 词 向 量 的 维 数 . 


这 里 不 需要 使 用 TensorFlow, 因为 只 是 简单 地 将 句子 转换 为 基于 映射 的 序列 不 需要 TensorFlow 
提供 计算 支持 , 普通 Python 模块 足以 完成 此 任务 。 


tokens = Sentence-strip('"()，-') -LIower() .split("") 
rows = [] 
words = [] 
# 对 令 牌 执行 贪 禁 搜索 
for token in tokens: 
i = lenl(token) 
while len(token) > 0: 
word = token[:i] 
if word in glove wordmap: 
rows.append (glove_ wordmap[word]) 
words .append (word) 
token = token[i:] 


i = len(token) 


continue 
else: 
i = i-l 
if i == 0: 
# OOV 单词 


rows.append (fill unk (token) ) 
words .append (token) 
break 


return np.array (rows), words 


现在 我 们 可 以 将 每 个 问题 所 需 的 所 有 数据 打包 在 一 起 ， 包 括 上 下 文 、 问 题 和 答案 的 向 量 。 在 
bAbI 中 , 上 下 文 被 定义 成 了 含有 序列 号 的 句子 , 使 用 反 序 列 化 (contextualize) 函数 来 完成 该 任务 。 
问题 和 答案 在 同一 行 ， 用 制 表 符 分 隔 开 ， 所 以 我 们 可 以 利用 制 表 符 来 标记 某 一 行 是 否 指向 了 问题 。 
当 编 号 重 置 时 ， 未 来 的 问题 将 引用 新 的 上 下 文 〈 注 意 ， 通 常 一 个 上 下 文 对 应 多 个 问题 )》 。 答 案 还 包 
含 我 们 已 保留 但 不 需要 使 用 的 另 一 条 信息 : 参考 顺序 , 与 回答 问题 所 需 的 句子 相对 应 的 数字 。 在 我 
们 的 系统 中 ， 神 经 网 络 将 自学 需要 哪些 句子 来 回答 问题 。 


def contextualize(set_file) : 
读 入 问题 数据 集 并 构建 问题 + 答案 - > 上 下 文集 。 
输出 是 一 个 数据 点 列表 ， 每 个 数据 点 都 是 一 个 包含 以 下 内 容 的 7 元 素 元 组 : 
上 下 文中 的 句子 以 向 量化 形式 出 现 
上 下 文中 作为 字符 串 词 条 列表 的 句子 
向 量化 形式 的 问题 
作为 字符 串 词 条 列表 的 问题 
向 量化 形式 的 答案 
作为 字符 串 词 条 列表 的 答案 
用 于 支持 当前 未 使 用 的 语句 的 数字 列表 
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data = [] 
context = [] 
with open(set file, "“r", encoding="utf8") as train: 
for line in train: 
1l, ine = tuple(line.split("", 1)) 
# 将 行 号 从 所 指向 的 句子 中 分 离 出 来 
和 
# 因为 新 的 上 下 文 总 是 从 1 开始 ， 所 以 这 是 一 个 重 置 上 下 文 的 信号 
context = [] 
FE "Nt" nm ines 
# 制 表 符 是 问题 和 答案 之 间 的 分 隔 符 ， 在 上 下 文 语 句 中 不 存在 
question, answer, support = tuple (ine.split("\t")) 
data.append( (tuple (zip(*context))+ 
sentence2sequence (question)+ 
sentence2sequence (answer)+ 
([int(s) for s in support.split()],))) 
# 多 个 问题 可 能 涉及 相同 的 上 下 文 ， 所 以 我 们 不 重 置 它 
else: 
# 上 下 文句 子 
context .append (sentence2sequence (ine[:-1])) 
return data 
train data = contextualize(train set post file) 


test data = contextualize(test set post file) 


12.4.4 ”定义 超 参数 


此 时 ,我 们 已 经 充分 准备 好 了 训练 数据 和 测试 数据 ,下 一 个 任务 是 构建 用 于 理解 数据 的 神经 网 
络 。 我 们 先 从 清除 TensorFlow 默认 计算 图 开始 ， 如 果 想 更 改 一 些 东 西 ， 就 可 以 选择 再 次 运行 神经 
网 络 。 


tf.reset default graph() 

由 于 这 是 实际 神经 网 络 的 开始 ， 因 此 还 要 定义 网 络 所 需 的 所 有 常量 ， 称 为 “ 超 参 数 ”， 它 们 定 
义 了 网 络 的 “外 观 〈 结 构 ) ”和 训练 方式 。 

# 用 于 存储 在 网 络 中 循环 层 之 间 传 递 的 数据 的 维 数 


recurrent cell _ size = 128 


# 词 向 量 中 的 维 数 
D = 50 


# 神经 网 络 学 习 的 速率 。 若 速率 过 高 的 话 ， 则 可 能 会 遇 到 数值 不 稳定 或 其 他 问题 
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learning rate = 0.005 
# dropout 概率 
input p, output p = 0.5, 0.5 


# 一 次 训练 问题 的 个 数 
batch size = 128 


# 情景 记忆 的 传递 次 数 


passes = 4 


# 前 馈 层 大 小 : 用 于 存储 从 前 馈 层 传递 的 数据 的 维 数 
ff hidden _ size = 256 


# 奖励 情景 记忆 的 稀疏 性 ， 但 会 使 训练 变 慢 ， 不 要 让 它 大 于 learning_rate 
weight decay = 0.00000001 


# 每 次 训练 时 神经 网 络 训练 问题 的 个 数 ， 有 些 问 题 会 被 多 次 计算 


training iterations count = 400000 


# 在 每 次 验证 之 前 需要 进行 训练 的 迭代 次 数 
display step = 100 


12.4.5 ”神经 网 络 结构 部 分 


神经 网 络 结构 被 松散 地 划分 为 4 个 模块 ， 在 2015 年 Ankit Kumar 等 人 撰写 的 文章 《4sk Me 
Anvthing: Dynamic Memory Networks for Natural Language Processing》 中 给 出 了 相应 的 说 明 。 

由 于 神经 网 络 设计 了 一 个 循环 层 ,其 能 够 基于 文本 里 的 其 他 信息 被 动态 地 定义 , 因此 被 称 为 动 
态 记 忆 网 络 (DMN) 。DMN 是 基于 对 人 类 如 何 回 答 阅 读 理解 型 问题 的 理解 。 首 先 ， 人 类 会 阅读 上 
下 文 并 在 其 中 建立 对 相关 事实 的 记忆 , 记 住 这 些 事实 后 再 去 阅读 问题 并 重新 检查 上 下 文 , 特别 是 寻 
找 与 问题 相关 的 一 些 答案 的 信息 ， 并 将 问题 与 每 个 事实 进行 比 对 。 

有 时 一 个 事实 会 引导 我 们 走向 另 一 个 事实 。 在 bAbI 数据 集中 ,神经 网 络 希望 找到 足球 的 位 置 ， 
它 会 先 搜索 关于 足球 的 句子 ， 并 发 现 John 是 最 后 一 个 接触 足球 的 人 。 然 后 搜索 关于 John 的 句子 ， 
发 现 John 曾经 在 卧室 和 走廊 里 待 过 。 它 一 旦 意识 到 John 在 走廊 上 是 最 后 一 个 人 ,就 可 以 回答 这 个 
问题 并 自信 地 说 足球 在 走廊 上 ， 如 图 12-18 所 示 。 

在 每 一 集 或 片段 中 ， 神 经 网 络 都 会 关注 新 的 事实 ， 以 便 能 够 找 出 正确 答案 。Kumar 注意 到 神 
经 网 络 错误 地 将 一 些 权重 值 放 在 了 第 2 句 中 ， 这 是 有 原因 的 ， 因 为 John 已 经 在 那里 了 ， 尽 管 当时 
他 没有 足球 (Ankit Kumar 等 ，2015) 。 
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图 12-18 神经 网 络 内 部 4 个 模块 被 组 合 在 一 起 工作 以 回答 bAbI 数据 集中 的 问题 


12.4.6 ”输入 部 分 


输入 模块 是 动态 记忆 网 络 4 个 模块 中 第 一 个 给 出 答案 的 , 它 包含 一 个 简单 的 输入 , 带 有 一 个 门 
控 循 环 单元 或 GRU (TensorFlow 的 tcontrib.nn.GRUCell) 的 输入 管道 并 以 此 来 收集 相关 证 据 。 每 
一 个 片段 的 证 据 或 事实 , 在 上 下 文中 都 对 应 一 个 句子 , 并 且 由 该 时 间 步 长 的 输出 表示 ,这 需要 一 些 
非 TensorFlow 的 预 处 理 。 因 此 ， 我 们 可 以 收集 句子 末尾 的 位 置 并 将 其 传递 给 TensorFlow， 以 便 在 
后 面 的 模块 中 使 用 。 

我 们 可 以 利用 TensorFlow 中 的 gather_nd0 函 数 对 这 些 数 据 进 行 处 理 ， 并 使 用 这 些 被 处 理 过 的 
数据 来 选择 相应 的 输出 (gather_nd0 函 数 是 一 个 非常 有 用 的 工具 〉。 

# cs: 从 上 下 文 收集 的 事实 


cs = tf.gather ndl(input module outputs, input sentence endings) 


12.4.7 ”问题 部 分 


问题 模块 是 第 二 个 模块 ， 也 可 以 说 是 最 简单 的 模块 。 它 包括 另 一 个 GRU 的 管道 。 这 次 是 在 处 
理 问 题 的 文本 上 而 不 是 寻找 一 些 证 据 , 我 们 可 以 简单 地 进 到 结尾 状态 , 因为 数据 集 保证 问题 的 长 度 
是 一 个 句子 。 


12.4.8 情景 记忆 部 分 


第 三 个 模块 是 情景 记忆 模块 ， 就 是 事情 开始 变 得 有 意义 的 地 方 。 它 使 用 注意 力 执行 多 个 过 程 ， 
每 个 过 程 都 包含 多 个 GRU 并 对 输入 进行 迭代 。 每 个 过 程 中 的 迭代 都 是 基于 当时 对 相应 事实 的 关注 
程度 并 对 当前 记忆 的 权重 进行 更 新 。 
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12.4.9 注意 力 部 分 


神经 网 络 中 的 注意 力 最 初 是 为 了 进行 图 像 分 析 而 设计 的 ,特别 是 对 于 图 像 的 某 些 部 分 信息 远 比 
其 他 部 分 的 信息 与 分 析 主题 更 具 相关 性 的 情况 。 在 执行 任务 的 过 程 中 , 神经 网 络 使 用 注意 力 能 够 在 
深入 分 析 时 确定 所 需 对 象 的 最 佳 位 置 , 如 查找 图 像 中 目标 对 象 的 位 置 、 跟 踪 在 图 像 之 间 移 动 的 对 象 、 
面部 识别 或 其 他 需要 在 图 像 中 寻找 最 相关 信息 的 任务 。 

这 里 的 主要 问题 是 注意 力 或 至 少 硬 性 注意 力 (Hard Attention， 只 关注 一 个 输入 位 置 ) 很 难 被 
优化 。 与 大 多 数 神经 网 络 一 样 ,我 们 的 优化 方案 是 计算 损失 函数 相对 于 输入 和 权重 的 导数 ， 由 于 其 
二 进 制 的 性 质 , 硬性 注意 力 根 本 不 可 微分 。 因此， 我们 不 得 不 使 用 基于 实数 的 变 体 ,被 称 为 软 性 注 
意 力 (Soft Attention) ， 它 对 所 有 输入 的 位 置 使 用 某 种 形式 的 权重 来 表明 相应 的 注意 程度 。 而 且 ， 
这 里 涉及 的 权重 是 完全 可 微分 的 ， 可 以 被 正常 训练 。 虽 然 学 习 硬 性 注意 力也 是 可 以 的 ,但 它 比 软 性 
注意 力 更 难以 实现 且 有 时 表现 更 差 , 因此 这 里 我 们 使 用 软 性 注意 力 。 不 用 担心 对 导数 函数 进行 编码 ， 
TensorFlow 的 优化 方案 已 经 为 我 们 做 了 相关 处 理 。 

在 这 个 模型 中 ,我 们 通过 构造 每 个 事实 、 当 前 记忆 和 原始 问题 之 间 的 相似 性 度量 来 计算 注意 力 。 
注意 , 这 里 的 计算 方法 与 普通 注意 力 的 计算 方法 是 不 同 的 , 普通 注意 力 只 构造 事实 与 当前 记忆 之 间 
的 相似 性 度量 。 我 们 将 结果 推送 进 一 个 两 层 的 前 馈 神经 网 络 来 获得 每 个 事实 的 注意 力 常数 , 然后 对 
输入 的 事实 使 用 一 个 GRU 来 赋予 权重 (通过 相应 的 注意 力 常数 赋予 权重 ), 进而 修改 当前 的 记忆 。 
为 了 避免 在 上 下 文 短 于 矩阵 的 全 长 时 向 记忆 中 添加 错误 的 信息 , 我 们 创建 了 一 个 掩 码 层 ， 当 事实 不 
存在 的 情况 下 ， 模 型 不 必 在 意 它 〈 即 保留 相同 的 记忆 ) 。 

另 一 个 值得 注意 的 方面 是 , 注意 力 掩 码 层 几 乎 总 是 围绕 着 神经 网 络 的 一 个 层 对 表示 层 进 行 封 包 。 
对 于 图 像 而 言 ,该 封包 最 有 可 能 发 生 在 卷 积 层 上 (最 有 可 能 是 直接 映射 到 图 像 的 位 置 )。 而 对 于 自 
然 语 言 来 说 ， 该 封包 最 有 可 能 发 生 在 循环 层 上 。 虽 然 将 注意 力 集中 在 一 个 前 馈 层 上 , 在 技术 上 是 可 
行 的， 但 是 通常 没有 什么 用 处 一 一 至 少 在 那些 后 续 的 前 馈 神经 网 络 层 上 难以 模拟 这 种 方式 。 


def attention(c, mem, existing facts) : 


mm 


自 定义 注意 力 机 制 


c: 张 量 [batch_size, maximum sentence_count，recurrent_cell _ size] 包 含 上 下 文中 的 


所 有 事实 


mem: 包含 当前 记忆 的 张 量 [batch_size, maximum_sentence_count, recurrent cell size]。 


为 了 得 到 准确 的 结果 ， 对 所 有 事实 都 应 该 有 相同 的 记忆 
existing facts: 张 量 [batch size，maximum _sentence_count，1]， 就 是 我 们 上 面 提 到 的 
(二 元 ) 掩 码 


with tf.variable scope("attending") as scope: 


# attending: 度量 我 们 决定 去 关注 什么 
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attending = tf.concat([c, mem, re q, C * req, C * mem, (c-re q)**2, 


(c-mem) **2], 2) 


# ml: 前 馈 网 络 的 第 一 层 权重 乘法 
# 我 们 平 铺 权重 值 以 便 手动 传递 ， 因 为 tf.matmul 从 TensorFlow 1.2 开始 就 不 会 自动 传 
递 批量 矩阵 乘法 
ml = tf.matmul (attending * existing facts, 
tf.tile(w 1, tf.stack([tf.shape(attending) [0],1,1]))) * 
existing facts 


# bias_1: 第 一 个 前 馈 层 的 掩 码 变 体 仅 对 现 有 事实 产生 偏差 

bias 1 = b 1 * existing facts 

# tnhan: 第 一 非 线性 。 选 择 relu 而 不 是 tanh 等 类 似 的 非 线 性 ， 是 为 了 避免 当 tanh 之 类 
返回 值 接近 1 或 -1 时 出 现 低 梯度 量 级 的 问题 


tnhan = tf.nn.relu(ml + bias 1) 


# m2 :前 馈 网 络 的 第 二 层 乘法 权重 值 
m2 = tf.matmul (tnhan, tf.tile(w 2, tf.stack([tf.shape(attending) [0], 
1,1]))) 


# bias_2: 第 二 个 前 馈 层 偏差 的 掩 码 变 体 


bias 2 = b 2 * existing facts 


# norm_m2: 第 二 层 权重 值 的 标准 化 版 本 ， 用 于 确保 softmax 非 线 性 不 饱和 


norm m2 = tf.nn.12 normalize(m2 + bias 2, -1) 


# softmaxable: 在 原本 密集 的 张 量 上 使 用 sparse_softmax 的 技巧 。 我 们 让 norm_m2 
成 为 稀 玻 张 量 ， 使 其 在 操作 之 后 再 次 致密 

softmax idx = tf.where(tf.not equal (norm m2, 0))[:,:-1] 

softmax gather = tf.gather nd(norm m2[...,0], softmax idx) 

softmax shape = tf.shape (norm m2, out type=tf.int64)[:-1] 

softmaxable = tf.SparseTensor (softmax idx, softmax gather, 
softmax_ shape) 

return 


tf.expand dims (tf.sparse tensor to dense(tf.sparse softmax(softmaxable)),-1) 


12.4.10 ”答案 模块 


最 后 一 个 模块 是 答案 模块 ， 它 使 用 完全 连接 层 对 问题 和 情景 记忆 模块 的 输出 进行 回归 并 获得 
“最 终结 果 ” 的 词 向 量 , 而 与 该 结果 距离 最 近 的 上 下 文中 的 词 便 是 我 们 的 最 终 输出 (确保 结果 是 一 
个 真实 中 的 词 ) 。 我 们 通过 为 每 个 词 创建 一 个 “分 数 ” 来 计算 最 接近 的 词 ， 该 分 数 表示 最 终结 果 与 
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当前 词 的 距离 。 虽 然 可 以 设计 一 个 返回 多 个 词 的 答案 模块 ， 但 是 对 于 我 们 要 解决 的 bAbI 任务 来 说 
是 没有 必要 的 。 


12.4.11 ”模型 优化 


梯度 下 降 是 神经 网 络 模型 的 默认 优化 器 ， 其 目标 是 减少 神经 网 络 的 “损失 ”， 这 是 衡量 网 络 性 
能 有 多 差 的 一 个 指标 。 它 通过 找到 在 当前 输入 下 损失 相对 于 每 个 权重 值 的 导数 ， 然 后 通过 “降低 ” 
权重 值 来 减少 损失 。 大 多 数 时 候 ， 这 种 方法 效果 很 好 的 ， 但 却 不 是 最 理想 的 方法 。 目 前 有 许多 不 同 
的 模型 优化 方法 ， 如 使 用 “动量 ”或 其 他 更 直接 路 径 的 近似 的 方法 来 最 优化 权重 ， 而 这 些 优化 方法 
中 最 有 用 的 一 种 被 称 为 自 适应 矩 估 计 (Adaptive Moment Estimation，Adam) 。 

Adam 方法 集成 了 AdaGrad 和 RMSProp 算法 的 优点 ， 通 过 计算 梯度 的 一 阶 矩 估计 和 二 阶 算 估 
计 来 为 各 种 不 同 的 参数 创建 独立 的 自 适应 性 学 习 率 。 进 一 步 讲 ，Adam 方法 计算 了 梯度 的 指数 移动 
均值 ， 使 用 两 个 超 参 数 (betal 和 beta2) 控制 着 这 些 移动 均值 的 衰减 速度 。 而 移动 均值 的 初始 化 值 
和 betal 、beta2 两 参数 值 接近 于 1 时 ， 算 估计 的 偏差 就 会 接近 于 0。 若 移动 均值 初始 化 为 零 《有 些 
参考 资料 这 里 给 出 的 初始 化 值 为 1， 笔 者 认为 不 准确 ) 和 两 个 超 参数 (betal 、beta2 ) 值 接近 于 1 
时 ， 就 会 引起 向 矩 估计 的 偏差 接近 于 零 。 

为 了 抵消 这 种 偏差 . Adam 计算 偏差 校正 的 矩 离 估计 ， 其 值 一 般 情况 下 会 大 于 原始 值 ， 然 后 使 
用 校正 的 估计 值 来 更 新 整个 神经 网 络 的 权重 值 。 这 些 估计 的 组 合 使 得 Adam 成 为 整体 优化 的 最 佳 选 
择 之 一 ， 尤 其 是 对 于 复杂 神经 网 络 优化 而 言 。 这 对 于 非常 稀疏 的 数据 比如 在 自然 语言 处 理 任务 中 
常见 的 数据 ) 尤其 适用 。 

在 TensorFlow 中 ， 我 们 可 以 通过 创建 tftrain.AdamOptimizer 来 使 用 Adam。 

optimizer = tf.train.AdamOptimizer (learning rate) 


# 我 们 一 旦 有 了 一 个 优化 器 ， 我 们 就 要 求 它 将 模型 的 损失 降 到 最 低 ， 以 便 进行 适当 的 训练 


opt op = optimizer.minimize (total loss) 


12.4.12 ”训练 模型 并 分 析 预 测 


一 切 准备 就 绪 后 ,我 们 就 可 以 开始 批 处 理 训 练 数据 以 训练 我 们 的 神经 网 络 。 在 进行 训练 过 程 中 ， 
我 们 应 该 持续 监测 神经 网 络 在 准确 性 指标 方面 做 得 如 何 。 我 们 从 测试 数据 里 取出 一 部 分 作为 验证 数 
据 集 ， 这 样 它们 和 训练 数据 就 不 存在 重生 问题 了 。 

使 用 基于 测试 数据 的 验证 集 , 可 以 更 好 地 了 解 神经 网 络 的 泛 化 能 力 , 即 从 训练 数据 里 学 习 到 的 
东西 能 否 应 用 于 其 他 未 知 的 上 下 文中 。 如 果 在 训练 数据 集中 的 部 分 数据 上 进行 验证 , 那么 神经 网 络 
可 能 会 出 现 过 拟 合 现象 。 换 句 话说 , 学 习 到 了 特定 的 示例 并 记 住 它们 的 答案 , 将 无 益 于 神经 网 络 回 
答 新 问题 。 

经 过 一 些 训练 之 后 ， 让 我 们 来 看 看 从 神经 网 络 中 得 到 了 什么 样 的 答案 。 在 图 12-19 中 (笔者 这 
里 只 给 出 三 个 问题 的 图 像 ， 其 余 两 个 问题 的 图 像 读 者 可 以 在 代码 文件 中 查看 )， 我 们 可 以 将 注意 力 
可 视 化 到 上 下 文中 所 有 句子 ( 列 ) 和 每 个 情景 ( 行 ) 上 ; 较 深 的 颜色 表示 模型 对 该 情景 中 那个 句子 
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有 更 多 关注 。 


图 12-19 ”模型 输出 的 部 分 答案 示意 图 
对 于 每 个 问题 , 应 该 看 到 注意 力 在 至 少 两 个 情景 里 发 生 过 变化 , 但 有 时 注意 力 可 以 在 一 个 情景 
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内 找到 答案 ， 有 时 需要 全 部 4 个 情景 才 有 可 能 找到 答案 。 如 果 注 意 力 看 起 来 是 空白 的 ,那么 它 可 能 
是 饱和 的 , 应 该 注意 到 了 所 有 的 事项 。 在 这 种 情况 下 , 可 以 尝试 一 个 更 高 的 weight_decay 来 训练 ， 
以 减少 甚至 阻止 这 种 情况 的 发 生 。 在 训练 后 期 ， 饱 和 变 得 非常 普遍 。 

为 了 了 解 上 述 问 题 的 答案 ,我 们 可 以 使 用 上 下 文中 距离 分 数 的 位 置 作为 索引 并 查看 该 索引 处 的 
词 。 

为 了 得 到 更 好 的 结果 ， 我 们 可 能 需要 长 时 间 的 训练 〈 一 般 情况 下 需要 12 小 时 左右 ) ， 最 终 应 
该 能 够 达到 非常 高 的 精度 (超过 90%) 。 对 Jupyter Notebook 有 经 验 的 用 户 应 该 知道 ， 在 任何 时 候 
只 要 保持 相同 的 给 Session， 都 可 以 中 断 训 练 ， 并 且 仍 然 可 以 保存 网 络 训练 的 进展 。 如 果 希 望 可 视 
化 注意 力 和 当前 网 络 给 出 的 答案 ， 这 种 方式 很 有 用 。 

一 旦 查看 完 模型 返回 的 内 容 ， 就 可 以 关闭 会 话 以 释放 系统 资源 。 


12.5 总结 


本 章 简 单 介绍 了 基于 深度 学 习 的 问答 方法 , 特别 是 对 知识 库 和 机 器 理解 的 问答 。 使 用 深度 学 习 
的 优点 是 其 可 以 将 所 有 文本 跨度 (包括 文档 、 问题 和 潜在 答案 ) 转换 为 向 量 ( 即 柑 入 处 理 ) 。 因 此 ， 
所 有 文本 都 可 以 在 统一 的 语义 空间 中 处 理 , 进而 基于 符号 表示 的 传统 QA 方法 中 存在 的 语义 鸿沟 问 
题 可 以 在 一 定 程度 上 得 到 缓解 ， 并 且 这 种 方法 使 得 QA 系统 可 以 以 端 到 端的 方式 构建 。 所 以 , 现 有 
复杂 的 基于 管道 的 QA 过 程 可 以 用 更 直接 或 更 简单 的 方式 代替 ， 预 计 结 果 会 有 所 改善 。 

基于 深度 学 习 的 QA 模型 也 存在 许多 挑战 。 例 如 ， 现 有 的 神经 网 络 (如 RNN 和 CNN) 仍然 不 
能 精确 地 捕获 给 定 问题 的 语义 含义 。 特 别 是 对 于 文档 , 文档 中 的 主题 或 逻辑 结构 不 能 通过 神经 网 络 
轻松 建 模 ， 而 且 在 知识 库 中 嵌入 项 目 没有 有 效 的 方法 。 此 外 ，QA 中 的 推理 过 程 很 难 通过 向 量 之 问 
的 简单 数值 运算 来 建 模 。 这 些 问 题 是 质量 保证 任务 面临 的 主要 挑战 ， 未 来 应 引起 更 多 关注 。 


